1作者: smyansondur大约 1 个月前原帖
嗨,HN,我是Smyan,我喜欢构建智能代理。现代的多模态大语言模型(LLM)在视觉和感知方面表现出色,但在定位方面却相对较弱。当我们尝试将我们的机器人流程自动化(RPA)框架交给代理以执行计算机使用任务时,这自然会造成一个巨大的问题。 对于浏览器,我们已经能够通过使用DOM树为LLM提供结构提示来解决这个问题。最近,现代浏览器使用的框架采用了“标记集合”(Set-Of-Marks)提示,这种方法将网页的结构信息转换为带标签的视觉边界框,使LLM能够利用其强大的视觉和感知能力,准确地将其转换为一种定位形式。从功能上讲,这意味着LLM现在只需说“点击4”,而不必说“点击443 213”。 然而,这种方法在我们尝试将其应用于本地操作系统自动化时效果极差。可访问性树(accessibility tree),通常存在于本地应用程序中,通常相当脆弱,暴露出非确定性的选择器,并且常常被开发者剥离,这使得定位元素变得困难。模糊匹配可以对此有所帮助,但仍然很难做到准确。 这正是我创建SoMatic的原因。SoMatic是一个纯视觉基础的框架,使用经过微调的YOLO模型(深受OmniParser v2的启发)来识别用户界面中的文本和可交互元素。YOLO模型在CPU上本地运行,使用ONNX,速度相当快。SoMatic绘制边界框和标签,然后将每个边界框的ID映射到给定框中心的坐标。这使得原则上可以对任何用户界面进行标记集合提示。 我使用该框架与GPT-5.5(高)进行了消融基准测试,发现其准确率比原始模型高出约20%。然而,令人惊讶的是,模型在仅知道边界框位置(而不实际查看它们)时表现稍好。这可能是由于YOLO模型的阈值调整导致绘制的框过多或过少(我不太确定)。 无论如何,如果你希望让你的AI代理完全自主地操作你的计算机(Windows、Mac和Linux),你可以通过以下命令下载CLI: ``` npm install -g somatic-cli/cli ``` 并添加相应的技能: ``` npx skills add Smyan1909/SoMatic ``` 如果你希望模型直接解析来自所选API的屏幕截图(以b64编码),而不是在每次截图后读取图像,CLI还附带一个标准输入输出的MCP服务器。 我很想听听你对这种纯视觉方法的反馈。我们是否终于可以放弃混乱的操作系统可访问性树来进行自动化了?
1作者: alediemmee大约 1 个月前原帖