22作者: neversettles9 个月前原帖
嘿,HN!我们正在构建一个MCP服务器,旨在通过使用浏览器代理来帮助AI辅助的网页应用开发者测试AI在编辑器中所做的更改是否有效。我们已经在一些场景中进行了测试,比如验证用户界面中的新流程,或检查发送聊天请求是否会触发响应。我们的想法是让你的编码代理不仅能够编写代码,还能评估其所做的是否正确。以下是与Cursor的简短演示:<a href="https://www.youtube.com/watch?v=_AoQK-bwR0w" rel="nofollow">https://www.youtube.com/watch?v=_AoQK-bwR0w</a> 在构建应用时,我们发现AI辅助编码中最难的部分并不是编码本身,而是繁琐的点击测试,以查看功能是否正常。我们厌倦了这个循环:打开应用,点击流程,盯着网络标签,复制控制台错误到编辑器,重复。我们觉得这也应该由AI来辅助。如果你能进行“氛围编码”,那么你也应该能够进行“氛围测试”! 一些代理如Cline和Windsurf有浏览器集成,但Cline(通过Anthropic计算机使用)感觉很慢,只报告控制台日志,而Windsurf的可靠性尚待提高。我们对手动测试感到厌倦,因此决定解决这个问题。 我们的MCP服务器位于你的IDE代理(Cursor/Windsurf/Cline/Continue)和一个基于Playwright的浏览器使用代理之间。它根据IDE代理的指示启动浏览器,导航你的应用,并返回步骤、控制台事件和网络事件,以便IDE代理能够评估应用的状态。 我们代理Browser-use的原始Claude调用,并替换为Gemini Flash 2.0,将每个步骤的延迟从约8秒减少到约3秒。我们还将控制台/网络日志限制在10,000个字符以内,以保持上下文限制,并过滤掉无关的日志(例如,嘈杂的XHR请求)。 最后,浏览器代理输出一个总结,如下所示: ``` http://localhost:5173 的网页评估报告 任务:删除API密钥并评估用户体验 步骤:主页 → 登录 → API密钥 → 创建密钥 → 删除密钥 流程测试成功;用户体验存在问题X、Y、Z... 控制台(8)... 网络(13)... 事件时间线(57)… ``` 这使得编码代理能够识别控制台和网络错误,或在点击过程中遇到的任何问题,并在返回用户之前让编码代理修复这些问题。(在<a href="https://github.com/Operative-Sh/web-eval-agent">README</a>中有一个更长的示例。) 在Cursor / Cline / Windsurf / Claude Desktop(macOS/Linux)中尝试: ``` curl -LSf https://operative.sh/install.sh -o install.sh less -N install.sh # 如果需要,可以检查 bash install.sh # 安装uv + jq + Playwright + 服务器 # 然后在Cursor/Cline/Windsurf/Continue中:使用web_eval_agent工具编写提示 ``` (对于Windows,README中有4行手动安装说明。) 我们接下来想做的事情:暂停/继续OAuth屏幕;保存/加载浏览器身份验证状态;Playwright步骤录制以创建自动化测试和回归测试;通过提供网页版本支持Loveable / v0 / Bolt.new网站。 我们非常希望听到你的反馈,特别是如果你经历过在IDE内部进行更改后,必须手动测试网页应用中发生的更改的痛苦,或者如果你尝试过其他有效的MCP工具。 如果你觉得这对你的工作流程有帮助,请尝试一下:<a href="https://github.com/Operative-Sh/web-eval-agent">https://github.com/Operative-Sh/web-eval-agent</a>。(注意:服务器通过我们的operative.sh代理来处理Gemini令牌。MCP服务器本身是开源的;Anthropic基础URL支持即将推出。包括免费层;重度用户可以选择10美元的计划来抵消我们的模型账单。) 让我们知道你的想法!感谢你的阅读!
3作者: connerruhl9 个月前原帖
我们正在使用自定义模型处理Bluesky的实时数据流(firehose3d.theo.io),将人们讨论的内容聚类为热门话题。这一切都在一台GPU上运行。<p>您还可以在dazzle.fm/stats查看按话题划分的讨论量。