返回首页
最新
大家好,
我正在开发一个名为 Flakestorm 的开源工具,用于在 AI 代理投入生产之前测试其可靠性。
目前,大多数代理测试主要集中在评估分数或理想路径的提示上。但实际上,代理往往在更平常的情况下出现故障:拼写错误、语气变化、上下文过长、输入格式错误或简单的提示注入——尤其是在较小或本地模型上运行时。
Flakestorm 将混沌工程的理念应用于代理测试。它不是测试单一的提示,而是采用一个“黄金提示”,生成对抗性变异(语义变体、噪声、注入、编码边缘案例),并将其应用于你的代理,最终生成一个鲁棒性评分以及一份详细的 HTML 报告,展示出哪些地方出现了问题。
关键点:
- 本地优先(使用 Ollama 生成变异)
- 已在 Qwen / Gemma / 其他小型模型上进行测试
- 适用于 HTTP 代理、LangChain 链或 Python 可调用对象
- 无需云服务或 API 密钥
这一切始于我在看到自己的代理在真实用户输入下表现不稳定后,想要调试它们的需求。我仍处于早期阶段,正在尝试理解这一工具在我自己的工作流程之外的实用性。
我非常希望能得到以下方面的反馈:
- 这是否与您目前测试代理的方式重叠
- 您见过的未被覆盖的失败模式
- “代理的混沌测试”是否是一个有用的框架,或者应该以不同的方式思考
代码库: [https://github.com/flakestorm/flakestorm](https://github.com/flakestorm/flakestorm)
文档确实很长。
感谢您的关注!
这是我在科技领域长期以来一直在挣扎的问题,但我在想是否有一些我忽视的事情。<p>显而易见的答案是“为我所爱的人支付账单”,但我一直在寻找更深层次的东西。