返回首页
最新
即便是创建了 OpenClaw 的彼得·斯坦伯格(Peter Steinberger)在 Lex Fridman 的播客中也提到了这一点(https://www.youtube.com/watch?v=YFjfBk8HI5o,大约在 2:38:59)。<p>MCPs(多代理控制协议)的整个前提是,代理需要某种新的标准化协议来与工具进行沟通,但命令行界面(CLI)早已实现了这一点,并且已经持续了几十年。它们与几乎所有东西都向后兼容,而大型语言模型(LLMs)本质上已经以文本输入和文本输出的方式进行思考。没有翻译层,没有架构,没有额外开销。MCPs 真的只是一个寻找问题的解决方案,而这个问题 CLI 在 40 年前就已经解决了。<p>我自己也在测试这个,结果不言而喻。我用 Opus 4.6 指向一个拥有 2 万成员的 subreddit,仅通过 CLI 访问。没有 MCPs,没有特殊集成,只有一个模型和一台计算机。<p>在一周内,它发布了两条历史最高的帖子,在一个一周大的账户上积累了超过 3000 的声望,自动驱动了 70 多个候补名单的注册,吸引了 300 条来自陌生人的私信,并且这一切都是在没有任何付费推广的情况下完成的。人们给这个账户赠送了 Reddit 金币(实际货币),因为它确实提供了帮助。<p>没有任何协议促成了这一切。是一个 CLI 和一个强大的模型做到了这一点。MCP 的支持者们不断堆叠抽象层,而那些只是像人类一样使用计算机的代理则在这里交付真实的结果。CLI 是通用接口,而 LLMs 则让这一点变得显而易见。<p>不过,我很好奇这个社区的看法。我在这里错了吗?MCPs 是否有真正的用例是 CLI 无法处理的?<p>因为在我看来,给你的代理一个终端就是你所需要的一切。
嗨,HN,
我开发了Halal Food AI,旨在解决我家面临的一个反复出现的问题:在旅行时,如何通过阅读复杂且常常模糊的成分列表来判断食品产品是否符合特定的饮食要求(如清真、无过敏原等)。
虽然市面上有一些条形码扫描器,但大多数依赖于静态数据库,这些数据库对于当地或小众产品往往不够完整。我想看看大型语言模型(LLM)是否能够通过实时解析实际成分来填补这一数据空白。
它是如何工作的:
你可以扫描条形码或拍摄成分列表的照片。该应用使用光学字符识别(OCR)技术,将文本/图像传送给Google Gemini AI进行分析。它会解析隐藏的添加剂(如特定的E编号),进行交叉引用,并建立饮食档案。由于基于LLM,它自然支持25种以上的语言,这对于识别外国产品非常有用。用户还可以与家人网络保存和分享安全产品列表。
技术挑战:最困难的部分是从LLM获取一致、结构化的JSON响应,因为国际成分格式差异很大,同时保持提示延迟足够低,以免在超市过道中等待20秒。
我非常希望听到大家对这个应用的反馈,尤其是对那些在移动设备上处理实时OCR和LLM数据提取的人士感兴趣。欢迎提出任何技术问题!