返回首页
最新
萨姆·阿尔特曼最近表示,用户对ChatGPT的礼貌行为让OpenAI花费了“数千万美元”,但这“花得值得”。
通常的观点是,强化学习与人类反馈(RLHF)依赖于明确的反馈(点赞/点踩),而礼貌的回应只是增加计算成本的噪音。
但像“谢谢!”或“不是,这个错了”这样的自然回复,是否可能比按钮点击提供更丰富、更频繁的隐性反馈信号?人们可能更常给出这种反馈(至少我就是)。这也反映了我们作为人类自然提供反馈的方式。
模型提供者是否可以挖掘这些聊天记录,以获取真实的用户情感,从而指导未来的RLHF,进而证明这笔费用的合理性?而这种“社交化”是否对未来需要对话细微差别的自主AI至关重要?
在HN上的问题:
你知道有人将这种隐性情感作为核心对齐信号吗?
嘈杂的文本情感与干净的按钮点击在训练中价值如何?
潜在的训练价值是否抵消了提到的计算成本?
我们是否低估了以这种方式“社交化”大型语言模型的价值?
你认为阿尔特曼所说的“花得值得”是什么意思?这仅仅关乎用户体验、宝贵的训练数据,还是完全其他的东西?
对于在这里使用它的人来说,这个空间还活着吗?
基于Rust的分子结构工具包,集成了WebAssembly,旨在实现高性能的3D可视化和分析,能够在浏览器中运行。该工具可以解析PDB文件,处理分子结构,并通过WebAssembly以接近原生性能渲染交互式3D模型。它专为需要高效技术可视化工具的研究人员和开发者设计,避免了仅依赖JavaScript的低效解决方案的负担。
<p>这是一个非常早期的演示,我对这个项目未来的发展充满期待。欢迎大家贡献意见,让它变得更好:</p>
<p><a href="https://github.com/technoabsurdist/molecule-rs">https://github.com/technoabsurdist/molecule-rs</a></p>
一个全面的博客,深入学习大型语言模型(LLM)的方方面面:分词、注意力机制、位置编码等
项目
我一直在深入研究大型语言模型(LLM)的内部结构,并开始记录我的发现。我的博客涵盖了以下主题:
- 分词技术(例如,BBPE)
- 注意力机制(例如,多头注意力(MHA)、多查询注意力(MQA)、多层注意力(MLA))
- 位置编码和外推(例如,RoPE、NTK感知插值、YaRN)
- 像QWen、LLaMA等模型的架构细节
- 包括监督微调(SFT)和强化学习的训练方法
如果你对LLM的内部机制感兴趣,欢迎查看我的博客: [http://comfyai.app](http://comfyai.app)