返回首页
最新
你认为在科技行业坚持下去有意义吗?如果有的话,你的角色/职业发展路径是什么?
嘿,HN!我们正在构建一个MCP服务器,旨在通过使用浏览器代理来帮助AI辅助的网页应用开发者测试AI在编辑器中所做的更改是否有效。我们已经在一些场景中进行了测试,比如验证用户界面中的新流程,或检查发送聊天请求是否会触发响应。我们的想法是让你的编码代理不仅能够编写代码,还能评估其所做的是否正确。以下是与Cursor的简短演示:<a href="https://www.youtube.com/watch?v=_AoQK-bwR0w" rel="nofollow">https://www.youtube.com/watch?v=_AoQK-bwR0w</a>
在构建应用时,我们发现AI辅助编码中最难的部分并不是编码本身,而是繁琐的点击测试,以查看功能是否正常。我们厌倦了这个循环:打开应用,点击流程,盯着网络标签,复制控制台错误到编辑器,重复。我们觉得这也应该由AI来辅助。如果你能进行“氛围编码”,那么你也应该能够进行“氛围测试”!
一些代理如Cline和Windsurf有浏览器集成,但Cline(通过Anthropic计算机使用)感觉很慢,只报告控制台日志,而Windsurf的可靠性尚待提高。我们对手动测试感到厌倦,因此决定解决这个问题。
我们的MCP服务器位于你的IDE代理(Cursor/Windsurf/Cline/Continue)和一个基于Playwright的浏览器使用代理之间。它根据IDE代理的指示启动浏览器,导航你的应用,并返回步骤、控制台事件和网络事件,以便IDE代理能够评估应用的状态。
我们代理Browser-use的原始Claude调用,并替换为Gemini Flash 2.0,将每个步骤的延迟从约8秒减少到约3秒。我们还将控制台/网络日志限制在10,000个字符以内,以保持上下文限制,并过滤掉无关的日志(例如,嘈杂的XHR请求)。
最后,浏览器代理输出一个总结,如下所示:
```
http://localhost:5173 的网页评估报告
任务:删除API密钥并评估用户体验
步骤:主页 → 登录 → API密钥 → 创建密钥 → 删除密钥
流程测试成功;用户体验存在问题X、Y、Z...
控制台(8)... 网络(13)... 事件时间线(57)…
```
这使得编码代理能够识别控制台和网络错误,或在点击过程中遇到的任何问题,并在返回用户之前让编码代理修复这些问题。(在<a href="https://github.com/Operative-Sh/web-eval-agent">README</a>中有一个更长的示例。)
在Cursor / Cline / Windsurf / Claude Desktop(macOS/Linux)中尝试:
```
curl -LSf https://operative.sh/install.sh -o install.sh
less -N install.sh # 如果需要,可以检查
bash install.sh # 安装uv + jq + Playwright + 服务器
# 然后在Cursor/Cline/Windsurf/Continue中:使用web_eval_agent工具编写提示
```
(对于Windows,README中有4行手动安装说明。)
我们接下来想做的事情:暂停/继续OAuth屏幕;保存/加载浏览器身份验证状态;Playwright步骤录制以创建自动化测试和回归测试;通过提供网页版本支持Loveable / v0 / Bolt.new网站。
我们非常希望听到你的反馈,特别是如果你经历过在IDE内部进行更改后,必须手动测试网页应用中发生的更改的痛苦,或者如果你尝试过其他有效的MCP工具。
如果你觉得这对你的工作流程有帮助,请尝试一下:<a href="https://github.com/Operative-Sh/web-eval-agent">https://github.com/Operative-Sh/web-eval-agent</a>。(注意:服务器通过我们的operative.sh代理来处理Gemini令牌。MCP服务器本身是开源的;Anthropic基础URL支持即将推出。包括免费层;重度用户可以选择10美元的计划来抵消我们的模型账单。)
让我们知道你的想法!感谢你的阅读!
我们正在使用自定义模型处理Bluesky的实时数据流(firehose3d.theo.io),将人们讨论的内容聚类为热门话题。这一切都在一台GPU上运行。<p>您还可以在dazzle.fm/stats查看按话题划分的讨论量。