返回首页
最新
嗨,HN——我们是 BrowserOS.com 的创始人(YC S24),正在构建一个开源的自主网络浏览器。我们是 Chromium 的一个分支,目标是让非开发者能够在自己的浏览器上创建和运行有用的代理。
--- 当我们一个月前推出时,我们认为我们采用了正确的方法:一种“单次”代理,用户只需给出一个高层次的任务,比如“从亚马逊订购牙膏”,代理就会制定计划并执行。
但我们很快遇到了一个问题,从那时起我们一直在努力解决:用户体验完全是碰运气。有时它像魔法一样工作,但其他时候代理会卡住、生成错误的计划,或者偏离方向。它的可靠性不足以让任何人信任。
这迫使我们重新审视用户体验。我们在过去几周尝试了三种不同的用户构建代理的方法:
A) 拖放工作流:类似于 n8n 等工具。这种方法创建的代理非常可靠,但我们发现界面对新用户来说显得复杂且令人畏惧。一位测试者(我的妻子)说:“这比自己动手做任务还要麻烦。”构建一个简单的工作流需要超过 20 分钟的配置时间。
B) “单次”代理:这是我们的起点。用户给代理一个高层次的目标,代理完成其余工作。当它工作时感觉很神奇,但它不够稳定,较小的本地模型在独立创建良好计划时确实很困难。
C) 跟随计划的代理:一种折衷方案,用户用自然语言提供一个简单的高层次计划,LLM 执行每一步。LLM 不需要计划,只需按照指示操作,就像一个初级员工。
--- 在构建并尝试了这三种方案后,我们认为 C) 是可靠性和易用性之间的最佳折衷。这里是演示链接 <a href="https://youtu.be/ulTjRMCGJzQ" rel="nofollow">https://youtu.be/ulTjRMCGJzQ</a>
例如,用户不仅仅说“订购牙膏”,而是提供一个简单的计划:
1. 导航到亚马逊
2. 搜索 Sensodyne 牙膏
3. 从结果中选择一包 Sensodyne 牙膏
4. 将选中的牙膏加入购物车
5. 进行结账
6. 验证购物车中只有一件商品。如果有多于一件商品,请提醒我
7. 最后下订单
在这个指导下,我们的成功率从 30% 提升到了约 80%,即使是使用本地模型。折衷之处在于:用户花 30 秒写一个计划,而不是仅仅陈述一个目标。但他们得到了可靠性作为回报。请注意,我们的代理构建器提供了一个良好的起始计划,用户只需进行编辑/自定义。
--- 您可以尝试我们的代理构建器,并告诉我们您的想法。我们非常支持隐私,因此我们为本地 LLM 提供一流的支持。您可以通过 Ollama 或 LMStudio 尝试 GPT-OSS,效果很好!
我今天大部分时间都会在这里,乐意回答任何问题!
想知道其他人是如何找到早期创业公司加入的。考虑到创业公司正在招聘的第一位工程师,可能是前20名员工之一。