返回首页
一周热榜
基于大型语言模型(LLM)的软件代理在工具使用、记忆和多步骤任务规划方面已经变得相当出色。但我很好奇是否有人在将这一技术进一步应用于物理世界,特别是与机器人或配备传感器的代理相关的领域。
例如:
想象一下,机器人A观察到某个物品位于区域Z,而机器人B随后需要去取回它。它们是如何共享这一上下文的?是通过:
- 一个结构化的记忆层(比如知识图谱)?
- 在一个基于RAG的集中状态存储中?
- 还是某种更简单(或更混乱)的方式?
我正在尝试使用共享知识图谱作为代理之间的记忆——通过RAG支持非结构化输入,并且可以查询以进行规划、依赖关系和任务调度。
我很想知道:
- 是否还有其他人考虑在物理代理之间实现共享记忆?
- 你们是如何处理世界状态、任务上下文或协调的?
- 有没有你们觉得有帮助的框架或经验教训?
我正在探索这个领域,非常希望听到其他在这一领域或周边进行建设的人的意见。
谢谢!
大家好,
我最近构建了一个很酷的东西,我想很多人会觉得它很有用:一个针对Reddit的MCP(模型上下文协议)服务器,并且它是完全开源的!
如果你之前从未听说过MCP,它是一种协议,可以让MCP客户端(如Claude、Cursor,甚至是你自定义的代理)直接与外部服务进行交互。
你可以用它做以下事情:
- 获取详细的用户资料。
- 从任何子版块获取并分析热门帖子。
- 查看子版块的健康状况、增长和趋势指标。
- 创建具有最佳时机建议的战略帖子。
- 回复帖子/评论。
代码库链接:[https://github.com/Arindam200/reddit-mcp](https://github.com/Arindam200/reddit-mcp)
我制作了一个视频,演示如何设置和使用它与Claude一起:[https://www.youtube.com/watch?v=nY7Stp6peMI](https://www.youtube.com/watch?v=nY7Stp6peMI)
该项目是开源的,欢迎随意克隆、使用或贡献!
期待你的反馈!
我正在为需要进行推理和长期操作的LLM代理和助手构建基础设施,而不仅仅是处理单一的提示。
我遇到的一个核心挑战是:管理不断演变的记忆和上下文。检索增强生成(RAG)适用于检索,而临时记事本适合短期推理——但一旦代理需要维护结构化知识、跟踪状态或协调多步骤任务,情况就会迅速变得复杂;上下文变得越来越难以理解。
我正在尝试基于知识图谱构建一个共享记忆层:
- 代理可以将结构化/非结构化数据导入其中
- 随着代理的行动,记忆会动态更新
- 开发者可以观察、查询并优化图谱
- 它支持高层次的任务建模和依赖关系跟踪(前置/后置条件)
我的问题是:
- 你们是否在构建需要持久记忆或任务上下文的代理?
- 你们是否尝试过结构化记忆(图谱、JSON存储等),还是一直使用嵌入/临时记事本?
- 像基于图的记忆这样的东西真的会有帮助吗,还是对于大多数实际应用来说过于复杂?
我正在全力验证这个想法,想听听其他正在使用LLM构建的人的成功经验(或失败教训)。
提前感谢HN的朋友们!
嘿,HN,
我来自QR Code Developer,这是一个简单的SaaS工具,旨在帮助营销人员和创作者生成和管理动态二维码。
我们之所以开发这个工具,是因为看到小团队为那些缺乏联盟功能或分析透明度的臃肿二维码工具支付过高的费用而感到沮丧。
我们保持简洁:以隐私为先,定价透明,没有多余的内容,同时提供分析功能。
我目前正在招募一小部分联盟合作伙伴(提供30%的终身重复佣金),希望能听到HN社区的反馈或想法。
这是我们的网站: [https://qrcodeveloper.com/affiliate](https://qrcodeveloper.com/affiliate)
欢迎提问或私信——很乐意分享更多幕后故事。
我开始注意到一些出于善意的人们对大型语言模型的环境成本表示担忧。就在昨天,我在社交媒体上看到一个表情包,声称“ChatGPT在处理每个查询时需要1到3瓶水进行冷却。”
这让我觉得不太可信,但真相是什么呢?
我明白,训练一个大型语言模型的成本是非常高昂的。(虽然建立一个新的CPU制造厂的成本同样高。)但我认为,查询一个模型的增量成本应该相对较低。
我很想看到你们对“回答一个查询”所需的水和电量的粗略计算,比如ChatGPT、Claude-3.7-Sonnet或Gemini Flash。如果你能把这些数据与观看五分钟YouTube视频或进行一次Google搜索的成本进行比较,那就更好了。
如果能提供相关来源的链接,我将不胜感激。