嗨,HN。我在过去几个月里一直在构建这个项目,现在已经到了一个需要外部反馈的阶段,比起再单独迭代一周,外部的意见会更有帮助。
这是一个看板(kanban)工具,每个任务会依次运行两个代理:
- **构建代理**:在一个沙盒临时目录中运行,针对用户代码库的浅克隆进行操作,进行更改,推送分支,并打开一个拉取请求(PR)。使用Claude Agent SDK。
- **QA代理**:等待预览部署完成,然后通过Browserbase驱动真实浏览器,验证更改是否符合任务的验收标准。QA会话的截图和mp4视频会附加到PR中。
如果QA失败,构建代理会在QA报告的上下文中重新运行,最多进行3次迭代。在每次重试之前,分类器会读取失败信息,并判断是代码错误还是环境问题(如Clerk未加载、预览未部署、Browserbase会话被403等)。环境故障会中断循环,而不是在基础设施噪声上进行迭代。这是我在可靠性方面最大的提升。
另一个方面是输入。该平台暴露了一个MCP服务器,因此从Claude Code或任何MCP客户端,你可以说“为X创建一个任务”,它就会进入待办事项列表。我构建这一切的最初原因是,写任务对我来说是瓶颈,而不是写代码。
一些可能有趣的实现细节:
- 构建代理的系统提示禁止使用任务/代理(子代理)工具。在SDK内部生成子代理会持续挂起4分钟以上。保持在主会话中使用Read/Edit/Bash/Glob/Grep的可靠性显著提高。
- Postgres模式在启动时从单个schema.sql应用,所有地方都使用IF NOT EXISTS,确保幂等性。没有迁移目录。添加列的方式是“编辑schema.sql,推送,重启。”这是我在后端做出的最高效的决策。
- QA有快速模式(用于匿名路由的本地Chromium)和深度模式(Browserbase + 住宅代理 + 隐身,用于任何需要认证的内容)。模式是按任务划分的,因为便宜且快速的方式在登录墙后会失去信号。
- 一个后台清理程序会强制失败任何运行超过60分钟的任务。SDK可能会以asyncio.wait_for无法清理的方式挂起,因此杀死开关是一个双重保障。
- 技术栈:FastAPI在Railway上,Postgres,Claude Agent SDK,Browserbase,Vercel用于预览,Clerk用于认证,Resend用于事务性电子邮件,MCP通过HTTP。前端是一个HTML文件在Vercel上,没有构建步骤,没有框架,仅使用原生JS和从CDN加载的Clerk。
- 目前尚未良好工作的地方:深度模式QA偶尔在不熟悉的OAuth流程中被CAPTCHA卡住。分类器的环境故障列表是手动策划的关键词,这很脆弱。支出跟踪是按任务进行的,但我还没有建立按工作区的预算上限。Vercel上的PR预览有时需要2-3分钟才能加载,这需要QA代理耐心等待。
该项目目前处于alpha阶段,正在排队等候。alpha期间免费,后期将推出付费计划。整个平台是使用Claude Code构建的,因此在整个构建过程中进行了自我验证。
网站: [https://notesasm.com](https://notesasm.com)
我非常希望得到反馈,特别是关于:双代理循环设计、分类器方法、在你的代码库中哪些类型的任务会真正导致问题,以及我应该了解的前期工作(我知道Devin、OpenHands、SWE-agent;还有其他吗?)。
返回首页
最新
我之前分享过一个关于 .AI 网站投票的机制。这是我为了探索互联网这一部分而构建的工具。
我希望获得更全面的数据。因此,我添加了由人工智能生成的结构化类别,并为每个网站提供了描述,这样可以方便地找到特定领域的参与者。
我正在创建一个更大得多的数据集(不仅限于 .AI 网站)。如果你对此感兴趣,请告诉我(如果是用于研究目的,我会免费分享)。
抱歉,我无法处理您提供的内容。请提供需要翻译的具体文本。
作为一名一直羡慕 Spotlight 和 Alfred 的 Linux 用户,我开发了 LaunchDock 来满足自己的需求。它在后台运行一个守护进程,可以通过配置的快捷键调出,并且模糊搜索算法使你只需输入两到三个按键就能找到正确的应用程序。<p>更多背景信息请查看博客文章:<a href="https://qa3.tech/articles/2025091701" rel="nofollow">https://qa3.tech/articles/2025091701</a>