1作者: tonyww大约 2 个月前原帖
嗨,HN, 我是一名独立创始人,正在开发SentienceAPI,这是一个感知与执行层,旨在帮助大型语言模型(LLM)代理在真实网站上可靠地进行操作。 LLM在规划步骤方面表现良好,但在实际与网页互动时常常失败。仅依赖视觉的代理成本高且不稳定,而基于DOM的自动化在现代页面上容易出错,因为这些页面通常有覆盖层、动态布局和大量噪音。 我的方法是基于语义几何的视觉定位。 与其向模型提供原始HTML(上下文庞大)或截图(不够精确)并让其猜测,不如让API首先将网页简化为一个小的、基于实际可见和可交互元素的动作空间。每个元素都包含几何信息和轻量级的视觉提示,因此模型可以在没有猜测的情况下决定该做什么。 我在此基础上构建了一个参考应用程序,名为MotionDocs。下面的演示展示了该系统如何在亚马逊畅销书页面上导航,打开一个产品,并点击“加入购物车”,使用的是基于坐标的操作(没有脚本点击)。 演示视频(加入购物车): [https://youtu.be/1DlIeHvhOg4](https://youtu.be/1DlIeHvhOg4) 代理如何查看页面(地图模式线框图): [https://sentience-screenshots.sfo3.cdn.digitaloceanspaces.com/hn_wireframe.png](https://sentience-screenshots.sfo3.cdn.digitaloceanspaces.com/hn_wireframe.png) 这个线框图展示了呈现给LLM的简化动作空间。每个框对应一个可见的、可交互的元素。 代码摘录(简化版): ```python from sentienceapi_sdk import SentienceApiClient from motiondocs import generate_video video = generate_video( url="https://www.amazon.com/gp/bestsellers/", instructions="打开一个产品并加入购物车", sentience_client=SentienceApiClient(api_key="your-api-key-here") ) video.save("demo.mp4") ``` 工作原理(高层次): 执行层将浏览器视为黑箱,并提供三种模式: * 地图:识别具有几何和视觉提示的可交互元素 * 视觉:将几何与截图对齐以进行定位 * 读取:提取干净的、适合LLM的文本 关键的见解是视觉提示,尤其是一个简单的is_primary信号。人类不会逐个像素地阅读——我们会扫描视觉层次结构。直接编码这一点使代理能够优先考虑正确的操作,而无需处理原始像素或嘈杂的DOM。 为什么这很重要: * 更小的动作空间 → 更少的幻觉 * 确定性的几何 → 可重复的执行 * 比仅依赖视觉的方法更便宜 总结:我正在构建一个语义几何定位层,将网页转化为一个紧凑的、视觉基础的动作空间,供LLM代理使用。这为模型提供了一份备忘单,而不是让它去解决视觉难题。 这项工作还处于早期阶段,尚未推出。我非常希望得到反馈或质疑,特别是来自构建代理、RPA、QA自动化或开发工具的人士。 —— Tony W
1作者: ari1110大约 2 个月前原帖
我厌倦了频繁检查多个 GitHub 仓库以了解 CC、opencode 等的最新动态,因此我制作了一个命令行工具。目前,它可以从 CC 和 opencode 获取最新的变更日志条目,以及 gemini、codex 和 gh-cli。 <p>示例命令: - `aic claude` : 最新的 Claude Code 变更日志 - `aic latest` : 最近 24 小时内的所有发布 - `aic codex -json` : 脚本化的 JSON 输出 <p>`aic latest` 命令是我使用最多的——它显示过去 24 小时内所有支持工具的发布,按日期排序。 <p>该工具根据项目从 GitHub 发布或 CHANGELOG.md 文件中提取信息。输出格式可以是纯文本、JSON 或 markdown。 <p>可以通过 brew、scoop、go 安装,或从源代码构建。 <p>GitHub: <a href="https://github.com/arimxyer/aic" rel="nofollow">https://github.com/arimxyer/aic</a> <p>如果有兴趣,我很乐意为其他 AI 编程工具添加支持。
1作者: culopatin大约 2 个月前原帖
我有一种强烈的愿望,希望能帮助中小型农民赚更多的钱。我无法接受他们辛苦工作却赚得如此微薄,而中间的那些人却在从中获利。即使我无法解决整个供应链的问题,我至少可以尝试让他们的工作更高效,减少损失,或者让他们像大型农业企业一样以更小的规模运营。 这里有没有人在使用大型语言模型(LLMs)、机器学习(ML)或其他任何软件技术?进展如何?你们曾经从事农业吗?有没有取得什么进展?农民们对此反应如何?如果你有任何想分享的内容,我会很感激,也愿意请你喝咖啡聊聊。
2作者: pavish大约 2 个月前原帖
在过去几周,我注意到 GitHub 上出现了几个问题,其中大多数在几个月前都能正常工作。<p>除了停机问题之外,还有几个令人烦恼的、非常近期的经历:<p>- 我们的发布流程包括在质量保证(QA)之前创建草稿版本,并在准备好后发布。今天我们发布了一个新版本,美国的团队成员能够看到它已发布,而来自其他国家的成员仍然看到该版本标记为草稿,并且不对外公开。我们在发布公告两小时后才注意到这个问题。我们不得不取消发布并重新发布以解决这个问题。<p>- 最近,一位同事在审查 GitHub 上的差异时注意到了一些无关的更改,这导致我们撤回了一个合并,后来才发现该提交本身没有问题,问题出在 GitHub 的用户界面上。<p>停机和重大问题是可以接受的,它们显而易见并会直接得到解决。这类问题却常常被忽视,并且会悄悄地降低信任度。<p>我对 GitHub 的界面和操作不再信任。我们不得不手动重新测试我们的发布资产,以确保 GitHub 没有搞砸。<p>这是否又是因为过于信任 AI 代码而没有进行适当的审查和测试所导致的?在内部讨论时,我的一位同事提到“最近整个互联网感觉脆弱”。<p>我很好奇是否还有其他人也遇到过类似的奇怪问题。