3作者: tgrrr91115 个月前原帖
大家好。我正在进行一个小型的开放项目,试图用证据而非直觉来回答这个问题。在70天内,该项目达到了约800个星标。核心论点很简单: 许多人工智能的失败并不是噪声。它们之所以会重复,是因为其背后的几何结构和顺序是稳定的。如果是这样,我们应该能够命名每种失败模式,设定接受标准,并避免重复发布相同的错误。 ### 这是什么 * 一个紧凑的问题地图,涵盖了16种可重现的RAG和代理的失败模式。 * 每个项目都有一个最小修复方案和可测量的标准。示例: ``` * 语义 ≠ 嵌入:指标和归一化不匹配。如果目标部分的覆盖率 ≥ 0.70,并且在3个改写中,deltaS(问题,检索结果) ≤ 0.45,则接受。 * 逻辑崩溃与恢复:合成在薄弱证据上运行。回答之前需要一个桥接步骤。 * 会话间的记忆中断:新聊天失去上下文。使用元数据追踪然后重新附加。 * 启动顺序/预部署崩溃:发布了一个空的或混合的索引。在摄取计数和检索烟雾测试通过之前,阻止部署。 ``` * 采用MIT许可证。没有SDK,没有遥测,没有基础设施变更。 ### 我为什么相信这是真的 * 在主流模型上进行的重复A/B/C测试显示出相同的模式反复出现。 * 指标、归一化或块合约的小变化以可预测的方式翻转结果。 * 当你强制执行简单的标准时,绕道减少,链条在改写中稳定。 ### 你可以进行的快速反驳 1. 选择任何一个你的系统难以处理的非玩具问题。 2. 以三种方式运行:仅检索器、检索器+重排序,以及使用拒绝在薄弱证据上回答的桥接步骤。 3. 测量:目标范围的覆盖率、deltaS(问题,检索结果)、每个原子声明的引用数、在3个改写中的答案稳定性。 4. 如果覆盖率低且仅在重排序后看起来不错,你可能遇到了语义 ≠ 嵌入的问题。如果覆盖率还可以但文本仍然漂移,那就是逻辑崩溃。如果新的聊天忘记了之前的上下文,那就是记忆中断。这些都是可预测的,而不是随机的。 ### 我对HN的请求 * 尝试破坏它。如果你有一个反例,证明这些标准没有稳定链条,我想看看。 * 如果你维护一个向量存储、代理框架或评估套件,请告诉我这个框架在现实世界中失败的地方。 * 如果这个地图帮助你减少了回归,请告诉我哪个项目节省了你的时间,以便我们可以加强这个修复。 很高兴回答具体问题。如果这有误,我想知道数学具体哪里出错。如果大致正确,也许我们可以停止将这些错误视为神秘的,而开始将它们视为具有阈值的单元失败。
2作者: MO-3795 个月前原帖
你好, 我开发了一个带有人工智能辅助的PDF阅读器,你可以快速询问文本和图片相关的问题,它会对你所有的阅读材料有上下文理解,这样你可以自由提问。现在就来试试吧,我正在进行公开测试,以寻找bug并获取反馈。 即将推出的功能: - 高亮标记 - 带注释的高亮标记 - 参考书目 - 自动打开参考文件 - 改进的用户体验和稳定性 目前存在很多bug,如果你发现了任何问题,请告诉我。 非常感谢你的反馈!
9作者: stgr_codes5 个月前原帖
嗨,HN,我想分享我用Go编写的第一个(微不足道的)项目:一个小型命令行工具,可以显示带有标语的动画兔子。 我想学习Go,并需要一个小而有趣的项目来实践这门语言以及构建和分发命令行工具的过程。我之前在JavaScript中构建过类似的工具,所以我认为将其移植到Go是一个很好的学习练习。 这对我来说是一次深入Go基础知识的探索,从包结构和命令行标志解析到为不同平台构建可执行文件(在我的JavaScript项目中从未做过这些)。 我开始理解为什么Go受到如此赞誉:与其他语言相比,它的标准库非常庞大。在这个过程中,有一件事让我印象深刻,那就是在某个时刻我决定自己开发一个功能(而在JavaScript的原始项目中我选择使用外部库),在这里,借助标准库提供的机会,我想“为什么不试着自己创建这个功能呢?”结果成功了!在JavaScript版本中我使用了Node.js的“log-update”,而在这里我写了一个专门的包。 我知道这有点傻,但我可以想象它被用来为构建脚本增添一些乐趣,或者突出重要的日志消息,甚至只是让同事微笑。如果你已经安装了Go,安装起来非常简单: ``` go install github.com/fsgreco/go-bunny-sign/cmd/bunnysign@latest ``` 由于我对Go还很陌生,我非常欢迎任何关于代码、项目结构或Go最佳实践的反馈。README中也列出了我计划的下一步,比如添加测试和更好地设置CI。 感谢你们的关注!