返回首页
最新
我们都经历过这样的情况:你构建了一个不错的计算器或产品逻辑,然后在它投入生产时庆祝。然而,几个月后,你却无法回答一个简单的问题,比如“为什么在计算总额之前要应用16%的税率?”等等。
- 你无法快速调整逻辑或计算,而不进行重构。或者仅仅重新排序计算步骤就需要花费很长时间。
- 更糟糕的是,只有特定的工程师或关键人员能够解释这个计算器或服务逻辑的工作原理。
我们正在寻找一个简单的低代码规则引擎,拥有简单的用户界面,但到目前为止,我们还没有找到合适的选项。如果有更好的替代方案,请指教。
为了应对这个问题,我构建了一个轻量级的规则引擎,以便在不重新部署后端服务的情况下,改变业务逻辑(定价、验证、状态管理)。
BaaS - 业务逻辑即服务
这个引擎作为一个Docker容器运行,并评估在应用代码之外定义的规则。它使用REST API。我们的目标是使决策逻辑明确、可验证,并能够在技术用户和非技术用户之间进行讨论。
Docker Hub: [https://hub.docker.com/r/zeguru/baas](https://hub.docker.com/r/zeguru/baas)
欢迎提出任何问题或解释设计权衡。
大家好,
我正在开发一个名为 Flakestorm 的开源工具,用于在 AI 代理投入生产之前测试其可靠性。
目前,大多数代理测试主要集中在评估分数或理想路径的提示上。但实际上,代理往往在更平常的情况下出现故障:拼写错误、语气变化、上下文过长、输入格式错误或简单的提示注入——尤其是在较小或本地模型上运行时。
Flakestorm 将混沌工程的理念应用于代理测试。它不是测试单一的提示,而是采用一个“黄金提示”,生成对抗性变异(语义变体、噪声、注入、编码边缘案例),并将其应用于你的代理,最终生成一个鲁棒性评分以及一份详细的 HTML 报告,展示出哪些地方出现了问题。
关键点:
- 本地优先(使用 Ollama 生成变异)
- 已在 Qwen / Gemma / 其他小型模型上进行测试
- 适用于 HTTP 代理、LangChain 链或 Python 可调用对象
- 无需云服务或 API 密钥
这一切始于我在看到自己的代理在真实用户输入下表现不稳定后,想要调试它们的需求。我仍处于早期阶段,正在尝试理解这一工具在我自己的工作流程之外的实用性。
我非常希望能得到以下方面的反馈:
- 这是否与您目前测试代理的方式重叠
- 您见过的未被覆盖的失败模式
- “代理的混沌测试”是否是一个有用的框架,或者应该以不同的方式思考
代码库: [https://github.com/flakestorm/flakestorm](https://github.com/flakestorm/flakestorm)
文档确实很长。
感谢您的关注!