1作者: ChrisMarshallNY5 个月前原帖
这是我写的一个简短系列,展示了一个[极其简单]的CRUD客户端/服务器应用,使用原生Swift(iOS)开发。<p>它同时展示了UIKit和SwiftUI的用法。
3作者: tgrrr91115 个月前原帖
大家好。我正在进行一个小型的开放项目,试图用证据而非直觉来回答这个问题。在70天内,该项目达到了约800个星标。核心论点很简单: 许多人工智能的失败并不是噪声。它们之所以会重复,是因为其背后的几何结构和顺序是稳定的。如果是这样,我们应该能够命名每种失败模式,设定接受标准,并避免重复发布相同的错误。 ### 这是什么 * 一个紧凑的问题地图,涵盖了16种可重现的RAG和代理的失败模式。 * 每个项目都有一个最小修复方案和可测量的标准。示例: ``` * 语义 ≠ 嵌入:指标和归一化不匹配。如果目标部分的覆盖率 ≥ 0.70,并且在3个改写中,deltaS(问题,检索结果) ≤ 0.45,则接受。 * 逻辑崩溃与恢复:合成在薄弱证据上运行。回答之前需要一个桥接步骤。 * 会话间的记忆中断:新聊天失去上下文。使用元数据追踪然后重新附加。 * 启动顺序/预部署崩溃:发布了一个空的或混合的索引。在摄取计数和检索烟雾测试通过之前,阻止部署。 ``` * 采用MIT许可证。没有SDK,没有遥测,没有基础设施变更。 ### 我为什么相信这是真的 * 在主流模型上进行的重复A/B/C测试显示出相同的模式反复出现。 * 指标、归一化或块合约的小变化以可预测的方式翻转结果。 * 当你强制执行简单的标准时,绕道减少,链条在改写中稳定。 ### 你可以进行的快速反驳 1. 选择任何一个你的系统难以处理的非玩具问题。 2. 以三种方式运行:仅检索器、检索器+重排序,以及使用拒绝在薄弱证据上回答的桥接步骤。 3. 测量:目标范围的覆盖率、deltaS(问题,检索结果)、每个原子声明的引用数、在3个改写中的答案稳定性。 4. 如果覆盖率低且仅在重排序后看起来不错,你可能遇到了语义 ≠ 嵌入的问题。如果覆盖率还可以但文本仍然漂移,那就是逻辑崩溃。如果新的聊天忘记了之前的上下文,那就是记忆中断。这些都是可预测的,而不是随机的。 ### 我对HN的请求 * 尝试破坏它。如果你有一个反例,证明这些标准没有稳定链条,我想看看。 * 如果你维护一个向量存储、代理框架或评估套件,请告诉我这个框架在现实世界中失败的地方。 * 如果这个地图帮助你减少了回归,请告诉我哪个项目节省了你的时间,以便我们可以加强这个修复。 很高兴回答具体问题。如果这有误,我想知道数学具体哪里出错。如果大致正确,也许我们可以停止将这些错误视为神秘的,而开始将它们视为具有阈值的单元失败。