HackerNews中文版

几周前，我发布了关于 GoodToGo 的帖子 <a href="https://news.ycombinator.com/item?id=46656759">https://news.ycombinator.com/item?id=46656759</a> —— 这是一个为 AI 代理提供确定性回答的工具，能够回答“这个 PR 准备好合并了吗？”许多人询问我提到的更大规模的协调系统。这就是那个系统。我厌倦了作为 Claude Code 的项目经理。虽然它能很好地写代码，但将生产代码交付出去需要七八个工作——研究、规划、设计审查、实施、代码审查、安全审计、PR 创建、CI 监控。我一直在自己进行所有的协调。代理的打字速度很快，但我仍然是瓶颈。我真正需要的是一个协调者的协调者——成群的代理，配备确定性的质量检查。于是我构建了 metaswarm。它将工作分解为多个阶段，并将每个阶段分配给一个专业的群体协调者。它管理交接，并使用 BEADS 作为跨 /compact、/clear，甚至跨会话的确定性门控。将其指向一个 GitHub 问题或与其进行头脑风暴（它使用 Superpowers 提出澄清问题），它会创建史诗任务、子任务和依赖关系，然后运行完整的管道直到合并 PR——包括像 CodeRabbit、Greptile 和 Bugbot 这样的外部代码审查。让我最惊讶的是设计审查门控。五个代理——项目经理、架构师、设计师、安全专家、首席技术官——在每行代码写入之前并行审查每个计划。所有五个都必须批准。最多三轮审查，然后升级到人工。我原以为只是走个过场，但它确实发现了真实的设计问题、依赖关系问题和安全漏洞。这个周末，我将其指向我的待办事项列表。127 个 PR 被合并。每一个都达到了 100% 的测试覆盖率。没有人编写代码、审查代码或点击合并。好吧，我稍微引导了一下，主要是帮助规划一些史诗任务。一些经验教训：代理的检查清单只是表面功夫。代理跳过了覆盖率检查，误读了阈值，或者决定它们不适用。仅仅依靠提示是不够的。解决方案是确定性门控——BEADS、预推送钩子、CI 任务，所有这些都在代理完成检查之上。这些门控能够阻止不良代码，无论代理是否合作。这些代理仅仅是 markdown 文件。没有自定义运行时，没有服务器，虽然我用 TypeScript 构建了它，但代理是语言无关的。你可以阅读它们，编辑它们，添加你自己的内容。它也能自我反思。在每次合并 PR 后，系统会提取模式、陷阱和决策到一个 JSONL 知识库中。代理只加载与它们正在处理的文件相关的条目。它交付的越多，犯错的次数就越少。它在不断学习。 metaswarm 基于两个项目：<a href="https://github.com/steveyegge/beads" rel="nofollow">https://github.com/steveyegge/beads</a>（由 Steve Yegge 提供，支持 git 原生任务跟踪和知识准备）和 <a href="https://github.com/obra/superpowers" rel="nofollow">https://github.com/obra/superpowers</a>（由 Jesse Vincent 提供，支持有纪律的代理工作流——TDD、头脑风暴、系统调试）。这两个项目都是必不可少的。背景：我创办了 Technorati、Linuxcare 和 Warmstart；曾任 Lyft 和 Reddit 的技术高管。我构建 metaswarm 是因为我需要能够以与我对人类团队相同标准交付生产代码的自主代理。 $ cd my-project-name $ npx metaswarm init MIT 许可。我不是律师。你的情况可能有所不同。欢迎提出问题或 PR！

千字节恰好是1000字节。

1 分•作者: surprisetalk•4 天前•原帖

保护人类受试者，而非官僚主义

1 分•作者: surprisetalk•4 天前•原帖

认真对待人工智能的末日，时长62分钟 [视频]

1 分•作者: surprisetalk•4 天前•原帖

2025年第四季度网络统计：Neocloud流量趋势

1 分•作者: oavioklein•4 天前•原帖

一周热榜