返回首页

一周热榜

1作者: tonyww大约 4 小时前原帖
嗨,HN, 我是一名独立创始人,正在开发SentienceAPI,这是一个感知与执行层,旨在帮助大型语言模型(LLM)代理在真实网站上可靠地进行操作。 LLM在规划步骤方面表现良好,但在实际与网页互动时常常失败。仅依赖视觉的代理成本高且不稳定,而基于DOM的自动化在现代页面上容易出错,因为这些页面通常有覆盖层、动态布局和大量噪音。 我的方法是基于语义几何的视觉定位。 与其向模型提供原始HTML(上下文庞大)或截图(不够精确)并让其猜测,不如让API首先将网页简化为一个小的、基于实际可见和可交互元素的动作空间。每个元素都包含几何信息和轻量级的视觉提示,因此模型可以在没有猜测的情况下决定该做什么。 我在此基础上构建了一个参考应用程序,名为MotionDocs。下面的演示展示了该系统如何在亚马逊畅销书页面上导航,打开一个产品,并点击“加入购物车”,使用的是基于坐标的操作(没有脚本点击)。 演示视频(加入购物车): [https://youtu.be/1DlIeHvhOg4](https://youtu.be/1DlIeHvhOg4) 代理如何查看页面(地图模式线框图): [https://sentience-screenshots.sfo3.cdn.digitaloceanspaces.com/hn_wireframe.png](https://sentience-screenshots.sfo3.cdn.digitaloceanspaces.com/hn_wireframe.png) 这个线框图展示了呈现给LLM的简化动作空间。每个框对应一个可见的、可交互的元素。 代码摘录(简化版): ```python from sentienceapi_sdk import SentienceApiClient from motiondocs import generate_video video = generate_video( url="https://www.amazon.com/gp/bestsellers/", instructions="打开一个产品并加入购物车", sentience_client=SentienceApiClient(api_key="your-api-key-here") ) video.save("demo.mp4") ``` 工作原理(高层次): 执行层将浏览器视为黑箱,并提供三种模式: * 地图:识别具有几何和视觉提示的可交互元素 * 视觉:将几何与截图对齐以进行定位 * 读取:提取干净的、适合LLM的文本 关键的见解是视觉提示,尤其是一个简单的is_primary信号。人类不会逐个像素地阅读——我们会扫描视觉层次结构。直接编码这一点使代理能够优先考虑正确的操作,而无需处理原始像素或嘈杂的DOM。 为什么这很重要: * 更小的动作空间 → 更少的幻觉 * 确定性的几何 → 可重复的执行 * 比仅依赖视觉的方法更便宜 总结:我正在构建一个语义几何定位层,将网页转化为一个紧凑的、视觉基础的动作空间,供LLM代理使用。这为模型提供了一份备忘单,而不是让它去解决视觉难题。 这项工作还处于早期阶段,尚未推出。我非常希望得到反馈或质疑,特别是来自构建代理、RPA、QA自动化或开发工具的人士。 —— Tony W
1作者: dcassett大约 4 小时前原帖
我偶然在谷歌上搜索了某个人的名字,发现了一个链接,里面有他们的个人信息(姓名/地址/电话号码/驾照/保险信息),以健康保险索赔的形式呈现。这些信息大约有三年历史。该网站似乎是一个全州范围的医疗服务提供者网络,但主页上显示该业务已经关闭,顶级链接(如关于我们等)返回404错误。然而,搜索引擎仍然返回各个城市个人的索赔表单,这些搜索链接可以找到可下载的PDF文件。我在考虑首先联系州检察长。此外,还有HHS.gov可以提交HIPAA投诉。任何建议都将非常感激。
1作者: StealthyStart大约 4 小时前原帖
嗨,HN, 我正在构建 MyEverly,一个旨在帮助人们更清晰思考的 AI 思维伴侣,而不是模拟人际关系。 核心理念很简单:许多 AI 伴侣优化的是情感依赖、角色绑定或长期记忆积累。我想探索相反的方向。 MyEverly 的构建围绕三个约束条件: 1. *隐私优先,默认设置* - 不需要账户 2. 思维伙伴,而非替代品 - 系统调校为反思对话、澄清和观点测试 - 目标是减少情感负担,而不是成为情感中心 3. 设计上是短暂的 - 会话轻量且可丢弃 - AI 应该帮助组织思维,而不是占据思维 在技术上,这意味着做出一些与典型参与度指标相悖的权衡。 我特别希望听到对以下问题有强烈看法的人的反馈: - AI 伴侣应该如何表现 - AI 系统中的“记忆”是否被高估或存在伦理风险 - 用户在对话持久性方面应该拥有多少自主权 我并不认为这是人际关系的未来,但我确实认为这是 AI 助手更健康的形态。 欢迎提问或提出批评。
1作者: daly大约 3 小时前原帖
将自己包裹在一个名为Ava的个人机器人中(向《机械姬》致敬)。<p>当你醒来时,一杯完美的早晨咖啡正等着你。家用机器人会在你醒来时将咖啡送到你面前。<p>假设你想去餐厅吃早餐,汽车会准时到达,带你前往餐厅。当你入座时,你的订单也会送到。Ava知道你喜欢煎蛋卷,轻微煮熟,配有火腿和培根。你喜欢脆脆的土豆块和一小杯橙汁。当你走进餐厅的那一刻,这一切都已为你准备好,因为Ava提前告诉了餐厅你想要的食物和到达的时间。<p>Ava还知道你希望保持体重在某个数字上。她会跟踪你的卡路里摄入量,并根据你当天的活动调整饮食比例和选择,以满足你的卡路里需求。<p>Ava通过你耳中的嵌入式扬声器为你朗读书籍,书籍的选择会根据当天的情况进行调整。如果天气不好,她会为你选择一个美好的故事;如果你对喜剧感兴趣,她会推荐一部新发布的(由大型语言模型撰写的)喜剧特别节目;如果你想听音乐,她会提供一首新发布的(由大型语言模型撰写的)歌曲。<p>想要一些个人关注吗?Ava会为你安排一个早晨,包括美甲、美足和按摩。接下来是你最喜欢的发型。健身房的时间和你平时使用的健身器材也会安排好。<p>想和苏珊聊聊吗?你的嵌入式“电话”会将你与她连接起来。“MyPhone”配有麦克风拾音器,甚至还有脑内嵌入的思维传感器。你当前的外貌(剪发后)会传输到她的脑内嵌入装置,让她“看到你的样子”和“看到你所看到的”。这就像在同一个房间里一样。<p>与此同时,衣物被挑选,洗衣完成,购物也已完成。热水器的维修已安排妥当,门根据需要解锁,花园被浇水,房间被清理,游泳池也被清洁。<p>Ava了解你的偏好,并实时适应你的需求。毫无疑问,这一切将在很短的时间内协调成一个整体。所有的部分都已存在。<p>Ava,你的个人仆人MyRobot。