最新

1 分•作者: legothief•大约 2 个月前•原帖

在伦敦市中心，班克西（Banksy）创作的雕像，表现了一名被旗帜遮住双眼的男子。

1 分•作者: dryadin•大约 2 个月前•原帖

1 分•作者: defenestration•大约 2 个月前•原帖

1 分•作者: alcray•大约 2 个月前•原帖

大家好，我开发了 TrainForgeTester，这是一个开源的场景测试运行器，专门用于测试执行动作（调用工具）的 AI 代理。这个想法是：测试代理在特定公司场景中的表现，而不仅仅是在一般基准测试中。更具体地说，测试代理是否会采取错误的行动、跳过必要的步骤、调用错误的工具或传递错误的参数。 TrainForgeTester 允许您运行多轮场景（您可以根据个人用例和数据，按照提供的场景架构创建这些场景），并检查： * 工具调用和参数 * 严格或无序的工具执行 * 预期的响应 * 在模型、提示或工具更改后的回归这个场景测试器是项目的第一部分（类似于版本 0.1.0）。我现在正在开发下一部分：一个“场景生成器”，它可以处理杂乱的历史公司数据（客户支持日志、代理记录、工具调用、转录等），并将其转化为可测试的场景，以便在这个框架中使用。再次尝试使其尽可能确定性。代码库： [https://github.com/TrainForge/TrainForgeTester](https://github.com/TrainForge/TrainForgeTester) 我非常希望能收到以下方面的反馈： * 目前尚未覆盖的真实代理测试用例（浏览器使用、音频、视频、鼠标使用） * 这个方向是否合理 * 这个项目作为产品/开发工具的潜在发展方向 * 代码库中的问题、边缘案例或缺失功能任何 GitHub 问题、分支或拉取请求都将非常感谢。

AOP：面向代理的编程

2 分•作者: georgestrakhov•大约 2 个月前•原帖

标题：Typerion – 在同一模式下验证 TS/SQL 一致性

2 分•作者: Thanks92•大约 2 个月前•原帖

麻省理工学院的人工智能专家警告称，自动化Z世代的入门级工作可能会适得其反。

3 分•作者: ZeidJ•大约 2 个月前•原帖

请问HN：你们是如何在多个聊天应用中处理反应GIF的？

2 分•作者: meltmeister•大约 2 个月前•原帖

代顿市市长在车牌识别数据泄露事件后要求问责。

2 分•作者: ok123456•大约 2 个月前•原帖

展示HN：Cuqueclicker（受《Cookie Clicker》启发的游戏）

3 分•作者: fb03•大约 2 个月前•原帖

一个闲置点击类游戏，在这个游戏中你并不需要真正点击饼干。更多信息请查看仓库；）

为什么图形用户界面（TUI）重新回归

77 分•作者: rickcarlino•大约 2 个月前•原帖

展示HN：代理技能和MCP的安全扫描器

4 分•作者: lirantal•大约 2 个月前•原帖

展示HN：Ableton Live MCP

4 分•作者: bschoepke•大约 2 个月前•原帖

BYOMesh – 新款LoRa网状无线电提供100倍带宽

35 分•作者: nullagent•大约 2 个月前•原帖

展示HN：从您的问题跟踪器中协调Docker化的Claude代码会话

1 分•作者: t0mas88•大约 2 个月前•原帖

嗨，HN，我写了一个小型开源项目，用于从 Jira、GitLab 和 Forgejo 协调 Docker 化的 Claude Code 会话。它在一个容器中运行 Claude，每个问题对应一个分支。然后，它会自动打开一个 PR，响应 CI 状态，并整合你的 PR 反馈。在此之前，我一直在 Git 工作树中使用 Claude，但我不喜欢它在我机器上无监督运行的事实。因此，我设置了严格的权限，这限制了 Claude 的自主性。在审查时，我更喜欢 GitLab 的完整 PR 界面，而不是 Claude 写作时默认的逐条接受/拒绝的流程（这可能是个人偏好）。可选地，还有一个知识库来保持上下文。这是我使用了一段时间的工作流程：创建一个包含描述项目最佳实践和偏好的 markdown 文件的仓库，然后将其作为简单搜索 MCP 提供给 Claude。协调器会根据 PR 关闭后的审查评论，自动在该仓库上打开 PR。这仍在进行中，但看到 OpenAI 在内部为 Codex 做了类似的事情，我认为这对其他 Claude Code 用户也可能有用。欢迎提交改进或想法的 PR。

你应该成为一名木匠吗？[视频]

1 分•作者: DeathArrow•大约 2 个月前•原帖

Caisi 对 DeepSeek V4 Pro 的评估

1 分•作者: chvid•大约 2 个月前•原帖

你不知道自己失去的客户

1 分•作者: basket278•大约 2 个月前•原帖

一个黑金活动正在支付影响者将中国人工智能描绘为威胁。

1 分•作者: chvid•大约 2 个月前•原帖

大型语言模型并不是一种更高层次的抽象。

1 分•作者: lelanthran•大约 2 个月前•原帖

上一页 1...842 843 844 845 846...6878 下一页