返回首页
最新
嗨,HN,
我正在构建 MyEverly,一个旨在帮助人们更清晰思考的 AI 思维伴侣,而不是模拟人际关系。
核心理念很简单:许多 AI 伴侣优化的是情感依赖、角色绑定或长期记忆积累。我想探索相反的方向。
MyEverly 的构建围绕三个约束条件:
1. *隐私优先,默认设置*
- 不需要账户
2. 思维伙伴,而非替代品
- 系统调校为反思对话、澄清和观点测试
- 目标是减少情感负担,而不是成为情感中心
3. 设计上是短暂的
- 会话轻量且可丢弃
- AI 应该帮助组织思维,而不是占据思维
在技术上,这意味着做出一些与典型参与度指标相悖的权衡。
我特别希望听到对以下问题有强烈看法的人的反馈:
- AI 伴侣应该如何表现
- AI 系统中的“记忆”是否被高估或存在伦理风险
- 用户在对话持久性方面应该拥有多少自主权
我并不认为这是人际关系的未来,但我确实认为这是 AI 助手更健康的形态。
欢迎提问或提出批评。
我偶然在谷歌上搜索了某个人的名字,发现了一个链接,里面有他们的个人信息(姓名/地址/电话号码/驾照/保险信息),以健康保险索赔的形式呈现。这些信息大约有三年历史。该网站似乎是一个全州范围的医疗服务提供者网络,但主页上显示该业务已经关闭,顶级链接(如关于我们等)返回404错误。然而,搜索引擎仍然返回各个城市个人的索赔表单,这些搜索链接可以找到可下载的PDF文件。我在考虑首先联系州检察长。此外,还有HHS.gov可以提交HIPAA投诉。任何建议都将非常感激。
嗨,HN,
我是一名独立创始人,正在开发SentienceAPI,这是一个感知与执行层,旨在帮助大型语言模型(LLM)代理在真实网站上可靠地进行操作。
LLM在规划步骤方面表现良好,但在实际与网页互动时常常失败。仅依赖视觉的代理成本高且不稳定,而基于DOM的自动化在现代页面上容易出错,因为这些页面通常有覆盖层、动态布局和大量噪音。
我的方法是基于语义几何的视觉定位。
与其向模型提供原始HTML(上下文庞大)或截图(不够精确)并让其猜测,不如让API首先将网页简化为一个小的、基于实际可见和可交互元素的动作空间。每个元素都包含几何信息和轻量级的视觉提示,因此模型可以在没有猜测的情况下决定该做什么。
我在此基础上构建了一个参考应用程序,名为MotionDocs。下面的演示展示了该系统如何在亚马逊畅销书页面上导航,打开一个产品,并点击“加入购物车”,使用的是基于坐标的操作(没有脚本点击)。
演示视频(加入购物车):
[https://youtu.be/1DlIeHvhOg4](https://youtu.be/1DlIeHvhOg4)
代理如何查看页面(地图模式线框图):
[https://sentience-screenshots.sfo3.cdn.digitaloceanspaces.com/hn_wireframe.png](https://sentience-screenshots.sfo3.cdn.digitaloceanspaces.com/hn_wireframe.png)
这个线框图展示了呈现给LLM的简化动作空间。每个框对应一个可见的、可交互的元素。
代码摘录(简化版):
```python
from sentienceapi_sdk import SentienceApiClient
from motiondocs import generate_video
video = generate_video(
url="https://www.amazon.com/gp/bestsellers/",
instructions="打开一个产品并加入购物车",
sentience_client=SentienceApiClient(api_key="your-api-key-here")
)
video.save("demo.mp4")
```
工作原理(高层次):
执行层将浏览器视为黑箱,并提供三种模式:
* 地图:识别具有几何和视觉提示的可交互元素
* 视觉:将几何与截图对齐以进行定位
* 读取:提取干净的、适合LLM的文本
关键的见解是视觉提示,尤其是一个简单的is_primary信号。人类不会逐个像素地阅读——我们会扫描视觉层次结构。直接编码这一点使代理能够优先考虑正确的操作,而无需处理原始像素或嘈杂的DOM。
为什么这很重要:
* 更小的动作空间 → 更少的幻觉
* 确定性的几何 → 可重复的执行
* 比仅依赖视觉的方法更便宜
总结:我正在构建一个语义几何定位层,将网页转化为一个紧凑的、视觉基础的动作空间,供LLM代理使用。这为模型提供了一份备忘单,而不是让它去解决视觉难题。
这项工作还处于早期阶段,尚未推出。我非常希望得到反馈或质疑,特别是来自构建代理、RPA、QA自动化或开发工具的人士。
—— Tony W
我厌倦了频繁检查多个 GitHub 仓库以了解 CC、opencode 等的最新动态,因此我制作了一个命令行工具。目前,它可以从 CC 和 opencode 获取最新的变更日志条目,以及 gemini、codex 和 gh-cli。
<p>示例命令:
- `aic claude` : 最新的 Claude Code 变更日志
- `aic latest` : 最近 24 小时内的所有发布
- `aic codex -json` : 脚本化的 JSON 输出
<p>`aic latest` 命令是我使用最多的——它显示过去 24 小时内所有支持工具的发布,按日期排序。
<p>该工具根据项目从 GitHub 发布或 CHANGELOG.md 文件中提取信息。输出格式可以是纯文本、JSON 或 markdown。
<p>可以通过 brew、scoop、go 安装,或从源代码构建。
<p>GitHub: <a href="https://github.com/arimxyer/aic" rel="nofollow">https://github.com/arimxyer/aic</a>
<p>如果有兴趣,我很乐意为其他 AI 编程工具添加支持。
我有一种强烈的愿望,希望能帮助中小型农民赚更多的钱。我无法接受他们辛苦工作却赚得如此微薄,而中间的那些人却在从中获利。即使我无法解决整个供应链的问题,我至少可以尝试让他们的工作更高效,减少损失,或者让他们像大型农业企业一样以更小的规模运营。
这里有没有人在使用大型语言模型(LLMs)、机器学习(ML)或其他任何软件技术?进展如何?你们曾经从事农业吗?有没有取得什么进展?农民们对此反应如何?如果你有任何想分享的内容,我会很感激,也愿意请你喝咖啡聊聊。