4作者: nimeshmc大约 1 个月前原帖
简而言之:logbox 是一个开源工具,可以将开发服务器的日志通过命令 `<your-dev-server-cmd> | logbox collect` 导入本地 SQLite 数据库。通过运行 `claude mcp add logbox -- logbox serve` 来授予 Claude Code 访问权限。 我以前在手动测试开发服务器时,常常需要复制和粘贴日志到 Claude Code。我希望能给它一个独立的验证循环。 最初,我尝试让它自己启动服务器并跟踪日志。它能够很好地判断服务器是否正常启动,但当日志开始流入时,它却无法处理,错过了很多细节。 我还尝试将日志导入到本地文件中,然后让 Claude 从那里读取。虽然可行,但当我们有多个服务或想要引用过去的开发服务器会话时,这种方式就变得很麻烦。 因此,我为我们在 Struct 开发了 logbox,并决定将其开源。它是一个简单的 Rust 命令行工具,可以将日志导入本地 SQLite 数据库,并配有一个 MCP 服务器,使得编码代理能够搜索这些日志。 一旦它能够在测试更改后可靠地完全自主地监控开发服务器日志,我就不再需要手动寻找日志片段,也不必不断催促它完成端到端的手动测试。 所有数据都保留在本地。`logbox serve` 是一个标准输入输出的 MCP 服务器,它只与本地 SQLite 数据库配合使用。
1作者: kavin_key大约 1 个月前原帖
嗨,HN。我在过去几个月里一直在构建这个项目,现在已经到了一个需要外部反馈的阶段,比起再单独迭代一周,外部的意见会更有帮助。 这是一个看板(kanban)工具,每个任务会依次运行两个代理: - **构建代理**:在一个沙盒临时目录中运行,针对用户代码库的浅克隆进行操作,进行更改,推送分支,并打开一个拉取请求(PR)。使用Claude Agent SDK。 - **QA代理**:等待预览部署完成,然后通过Browserbase驱动真实浏览器,验证更改是否符合任务的验收标准。QA会话的截图和mp4视频会附加到PR中。 如果QA失败,构建代理会在QA报告的上下文中重新运行,最多进行3次迭代。在每次重试之前,分类器会读取失败信息,并判断是代码错误还是环境问题(如Clerk未加载、预览未部署、Browserbase会话被403等)。环境故障会中断循环,而不是在基础设施噪声上进行迭代。这是我在可靠性方面最大的提升。 另一个方面是输入。该平台暴露了一个MCP服务器,因此从Claude Code或任何MCP客户端,你可以说“为X创建一个任务”,它就会进入待办事项列表。我构建这一切的最初原因是,写任务对我来说是瓶颈,而不是写代码。 一些可能有趣的实现细节: - 构建代理的系统提示禁止使用任务/代理(子代理)工具。在SDK内部生成子代理会持续挂起4分钟以上。保持在主会话中使用Read/Edit/Bash/Glob/Grep的可靠性显著提高。 - Postgres模式在启动时从单个schema.sql应用,所有地方都使用IF NOT EXISTS,确保幂等性。没有迁移目录。添加列的方式是“编辑schema.sql,推送,重启。”这是我在后端做出的最高效的决策。 - QA有快速模式(用于匿名路由的本地Chromium)和深度模式(Browserbase + 住宅代理 + 隐身,用于任何需要认证的内容)。模式是按任务划分的,因为便宜且快速的方式在登录墙后会失去信号。 - 一个后台清理程序会强制失败任何运行超过60分钟的任务。SDK可能会以asyncio.wait_for无法清理的方式挂起,因此杀死开关是一个双重保障。 - 技术栈:FastAPI在Railway上,Postgres,Claude Agent SDK,Browserbase,Vercel用于预览,Clerk用于认证,Resend用于事务性电子邮件,MCP通过HTTP。前端是一个HTML文件在Vercel上,没有构建步骤,没有框架,仅使用原生JS和从CDN加载的Clerk。 - 目前尚未良好工作的地方:深度模式QA偶尔在不熟悉的OAuth流程中被CAPTCHA卡住。分类器的环境故障列表是手动策划的关键词,这很脆弱。支出跟踪是按任务进行的,但我还没有建立按工作区的预算上限。Vercel上的PR预览有时需要2-3分钟才能加载,这需要QA代理耐心等待。 该项目目前处于alpha阶段,正在排队等候。alpha期间免费,后期将推出付费计划。整个平台是使用Claude Code构建的,因此在整个构建过程中进行了自我验证。 网站: [https://notesasm.com](https://notesasm.com) 我非常希望得到反馈,特别是关于:双代理循环设计、分类器方法、在你的代码库中哪些类型的任务会真正导致问题,以及我应该了解的前期工作(我知道Devin、OpenHands、SWE-agent;还有其他吗?)。