2作者: frankhumarang大约 1 个月前原帖
大家好, 我正在开发一个名为 Flakestorm 的开源工具,用于在 AI 代理投入生产之前测试其可靠性。 目前,大多数代理测试主要集中在评估分数或理想路径的提示上。但实际上,代理往往在更平常的情况下出现故障:拼写错误、语气变化、上下文过长、输入格式错误或简单的提示注入——尤其是在较小或本地模型上运行时。 Flakestorm 将混沌工程的理念应用于代理测试。它不是测试单一的提示,而是采用一个“黄金提示”,生成对抗性变异(语义变体、噪声、注入、编码边缘案例),并将其应用于你的代理,最终生成一个鲁棒性评分以及一份详细的 HTML 报告,展示出哪些地方出现了问题。 关键点: - 本地优先(使用 Ollama 生成变异) - 已在 Qwen / Gemma / 其他小型模型上进行测试 - 适用于 HTTP 代理、LangChain 链或 Python 可调用对象 - 无需云服务或 API 密钥 这一切始于我在看到自己的代理在真实用户输入下表现不稳定后,想要调试它们的需求。我仍处于早期阶段,正在尝试理解这一工具在我自己的工作流程之外的实用性。 我非常希望能得到以下方面的反馈: - 这是否与您目前测试代理的方式重叠 - 您见过的未被覆盖的失败模式 - “代理的混沌测试”是否是一个有用的框架,或者应该以不同的方式思考 代码库: [https://github.com/flakestorm/flakestorm](https://github.com/flakestorm/flakestorm) 文档确实很长。 感谢您的关注!
2作者: AbstractH24大约 1 个月前原帖
这是我在科技领域长期以来一直在挣扎的问题,但我在想是否有一些我忽视的事情。<p>显而易见的答案是“为我所爱的人支付账单”,但我一直在寻找更深层次的东西。