返回首页
最新
大家好,
我开发了 TrainForgeTester,这是一个开源的场景测试运行器,专门用于测试执行动作(调用工具)的 AI 代理。
这个想法是:测试代理在特定公司场景中的表现,而不仅仅是在一般基准测试中。更具体地说,测试代理是否会采取错误的行动、跳过必要的步骤、调用错误的工具或传递错误的参数。
TrainForgeTester 允许您运行多轮场景(您可以根据个人用例和数据,按照提供的场景架构创建这些场景),并检查:
* 工具调用和参数
* 严格或无序的工具执行
* 预期的响应
* 在模型、提示或工具更改后的回归
这个场景测试器是项目的第一部分(类似于版本 0.1.0)。
我现在正在开发下一部分:一个“场景生成器”,它可以处理杂乱的历史公司数据(客户支持日志、代理记录、工具调用、转录等),并将其转化为可测试的场景,以便在这个框架中使用。再次尝试使其尽可能确定性。
代码库: [https://github.com/TrainForge/TrainForgeTester](https://github.com/TrainForge/TrainForgeTester)
我非常希望能收到以下方面的反馈:
* 目前尚未覆盖的真实代理测试用例(浏览器使用、音频、视频、鼠标使用)
* 这个方向是否合理
* 这个项目作为产品/开发工具的潜在发展方向
* 代码库中的问题、边缘案例或缺失功能
任何 GitHub 问题、分支或拉取请求都将非常感谢。
一个闲置点击类游戏,在这个游戏中你并不需要真正点击饼干。更多信息请查看仓库;)
嗨,HN,
我写了一个小型开源项目,用于从 Jira、GitLab 和 Forgejo 协调 Docker 化的 Claude Code 会话。它在一个容器中运行 Claude,每个问题对应一个分支。然后,它会自动打开一个 PR,响应 CI 状态,并整合你的 PR 反馈。
在此之前,我一直在 Git 工作树中使用 Claude,但我不喜欢它在我机器上无监督运行的事实。因此,我设置了严格的权限,这限制了 Claude 的自主性。
在审查时,我更喜欢 GitLab 的完整 PR 界面,而不是 Claude 写作时默认的逐条接受/拒绝的流程(这可能是个人偏好)。
可选地,还有一个知识库来保持上下文。这是我使用了一段时间的工作流程:创建一个包含描述项目最佳实践和偏好的 markdown 文件的仓库,然后将其作为简单搜索 MCP 提供给 Claude。协调器会根据 PR 关闭后的审查评论,自动在该仓库上打开 PR。
这仍在进行中,但看到 OpenAI 在内部为 Codex 做了类似的事情,我认为这对其他 Claude Code 用户也可能有用。欢迎提交改进或想法的 PR。