嘿,HN!我们正在构建一个MCP服务器,旨在通过使用浏览器代理来帮助AI辅助的网页应用开发者测试AI在编辑器中所做的更改是否有效。我们已经在一些场景中进行了测试,比如验证用户界面中的新流程,或检查发送聊天请求是否会触发响应。我们的想法是让你的编码代理不仅能够编写代码,还能评估其所做的是否正确。以下是与Cursor的简短演示:<a href="https://www.youtube.com/watch?v=_AoQK-bwR0w" rel="nofollow">https://www.youtube.com/watch?v=_AoQK-bwR0w</a>
在构建应用时,我们发现AI辅助编码中最难的部分并不是编码本身,而是繁琐的点击测试,以查看功能是否正常。我们厌倦了这个循环:打开应用,点击流程,盯着网络标签,复制控制台错误到编辑器,重复。我们觉得这也应该由AI来辅助。如果你能进行“氛围编码”,那么你也应该能够进行“氛围测试”!
一些代理如Cline和Windsurf有浏览器集成,但Cline(通过Anthropic计算机使用)感觉很慢,只报告控制台日志,而Windsurf的可靠性尚待提高。我们对手动测试感到厌倦,因此决定解决这个问题。
我们的MCP服务器位于你的IDE代理(Cursor/Windsurf/Cline/Continue)和一个基于Playwright的浏览器使用代理之间。它根据IDE代理的指示启动浏览器,导航你的应用,并返回步骤、控制台事件和网络事件,以便IDE代理能够评估应用的状态。
我们代理Browser-use的原始Claude调用,并替换为Gemini Flash 2.0,将每个步骤的延迟从约8秒减少到约3秒。我们还将控制台/网络日志限制在10,000个字符以内,以保持上下文限制,并过滤掉无关的日志(例如,嘈杂的XHR请求)。
最后,浏览器代理输出一个总结,如下所示:
```
http://localhost:5173 的网页评估报告
任务:删除API密钥并评估用户体验
步骤:主页 → 登录 → API密钥 → 创建密钥 → 删除密钥
流程测试成功;用户体验存在问题X、Y、Z...
控制台(8)... 网络(13)... 事件时间线(57)…
```
这使得编码代理能够识别控制台和网络错误,或在点击过程中遇到的任何问题,并在返回用户之前让编码代理修复这些问题。(在<a href="https://github.com/Operative-Sh/web-eval-agent">README</a>中有一个更长的示例。)
在Cursor / Cline / Windsurf / Claude Desktop(macOS/Linux)中尝试:
```
curl -LSf https://operative.sh/install.sh -o install.sh
less -N install.sh # 如果需要,可以检查
bash install.sh # 安装uv + jq + Playwright + 服务器
# 然后在Cursor/Cline/Windsurf/Continue中:使用web_eval_agent工具编写提示
```
(对于Windows,README中有4行手动安装说明。)
我们接下来想做的事情:暂停/继续OAuth屏幕;保存/加载浏览器身份验证状态;Playwright步骤录制以创建自动化测试和回归测试;通过提供网页版本支持Loveable / v0 / Bolt.new网站。
我们非常希望听到你的反馈,特别是如果你经历过在IDE内部进行更改后,必须手动测试网页应用中发生的更改的痛苦,或者如果你尝试过其他有效的MCP工具。
如果你觉得这对你的工作流程有帮助,请尝试一下:<a href="https://github.com/Operative-Sh/web-eval-agent">https://github.com/Operative-Sh/web-eval-agent</a>。(注意:服务器通过我们的operative.sh代理来处理Gemini令牌。MCP服务器本身是开源的;Anthropic基础URL支持即将推出。包括免费层;重度用户可以选择10美元的计划来抵消我们的模型账单。)
让我们知道你的想法!感谢你的阅读!
返回首页
一周热榜
大家好!<p>Kubetail 是一个通用的 Kubernetes 日志仪表板,专为实时跟踪多容器工作负载的日志而优化。使用 Kubetail,您可以查看工作负载(例如 Deployment 或 DaemonSet)中所有容器的日志,这些日志会合并成一个单一的时间线,并通过浏览器或终端呈现给您。<p>我在去年在 Hacker News 上发布了 Kubetail,当时用户最希望的功能是添加搜索功能。现在,我很高兴地宣布,我们在最新的官方版本中(cli/v0.4.3,helm/v0.10.1)终于实现了搜索功能。您可以在这里查看它的实际效果:<p><a href="https://www.kubetail.com/demo" rel="nofollow">https://www.kubetail.com/demo</a><p>Kubetail 通常通过 Kubernetes API 获取日志,而该 API 并不内置搜索功能。为了启用搜索,请在图形用户界面中点击“安装”按钮,或在命令行界面中运行 `kubetail cluster install`,以部署一个 DaemonSet,在每个节点上放置一个 Kubetail 代理。每个代理运行一个由 ripgrep 支持的自定义 Rust 二进制文件;它扫描节点的日志文件,并仅将匹配的行流式传输到您的浏览器或终端。您可以将 Kubetail 的搜索视为 Kubernetes 日志的“远程 grep”。现在,您无需下载整个日志文件就可以在本地进行 grep 操作。<p>自去年以来,我们还添加了一些用户觉得很有用的其他功能。特别是,我们构建了一个简单的命令行工具,可以在您的桌面上启动 Web 仪表板:<p><pre><code> # 安装
brew install kubetail
# 运行
kubetail serve
</code></pre>
我们还在命令行界面中添加了一个强大的日志子命令,您可以使用它来跟踪容器日志,甚至在给定的时间窗口内获取所有记录,以便在本地进行更详细的分析(快速入门):<p><pre><code> # 跟踪示例
$ kubetail logs deployments/web \
--with-ts \
--with-pod \
--follow
# 获取示例
$ kubetail logs deployments/web \
--since 2025-04-20T00:00:00Z \
--until 2025-04-21T00:00:00Z \
--all > logs.txt
</code></pre>
自去年以来,我们添加了更多功能,但这些是我想重点介绍的。<p>希望您喜欢我们对 Kubetail 的改进!您的反馈非常宝贵,请在这里或我们的 Discord 聊天中告诉我们您的想法。<p>安德烈斯
嗨,HN!我们是Emir和Waleed,我们正在构建Sim Studio([https://simstudio.ai](https://simstudio.ai)),这是一个开源的拖放式用户界面,用于构建和管理作为有向图的多智能体工作流。您可以定义智能体之间的交互方式,使用工具,并处理复杂的逻辑,如分支、循环、转换和条件执行。
我们的代码库在这里:[https://github.com/simstudioai/sim](https://github.com/simstudioai/sim),文档在这里:[https://docs.simstudio.ai/introduction](https://docs.simstudio.ai/introduction),我们还有一个演示:[https://youtu.be/JlCktXTY8sE?si=uBAf0x-EKxZmT9w4](https://youtu.be/JlCktXTY8sE?si=uBAf0x-EKxZmT9w4)。
使用现有框架构建可靠的多步骤智能体系统通常会迅速变得复杂。在OpenAI的《构建智能体的实用指南》中,他们声称非声明性的方法和单一的多步骤智能体是最佳路径,但根据我们的经验和实验,我们并不赞同。调试这些跨多个智能体调用和工具使用的隐式流程是痛苦的,逻辑或提示的迭代变得缓慢。
我们构建Sim Studio是因为我们相信明确和可视化地定义工作流是构建更可靠和可维护的智能应用的关键。在Sim Studio中,您设计整个架构,包括具有系统提示的智能体模块、多种模型(通过ollama托管和本地使用)、具有细粒度工具使用控制的工具和结构化输出。
我们有许多预构建的集成,您可以将其用作独立模块或作为智能体的工具。所有节点都通过if/else条件块、基于LLM的路由、循环和分支逻辑连接,以支持专业的智能体。
此外,视觉图不仅仅用于原型设计,实际上是可执行的。您可以运行工作流的模拟,1次、10次、100次,以查看修改任何小的系统提示、底层模型或工具调用所带来的变化如何影响工作流的整体性能。
您可以手动触发工作流,将其部署为API并通过HTTP进行交互,或定期调度工作流运行。它们还可以设置为在接收到网络钩子时触发,并作为独立的聊天实例进行部署,可以设置密码或域名保护。
我们内置了细粒度的追踪跨度、日志和可观察性,以便您可以轻松比较和对比不同模型提供者和工具的性能。所有这些功能都能实现更紧密的反馈循环和显著更快的迭代。
到目前为止,用户已经构建了深度研究智能体来检测应用程序欺诈,聊天机器人与他们的内部人力资源文档进行接口,以及智能体来自动化制造设施之间的通信。
Sim Studio采用Apache 2.0许可证,完全开源。
我们对将可视化、以工作流为中心的方法引入智能体开发感到兴奋。我们认为,这使得构建强大、复杂的智能工作流变得更加可及和可靠。我们非常希望听到HN社区的想法!