1作者: logicallee29 天前原帖
我不确定为什么直播质量这么低,我花了一段时间选择了4K。我能够看清文字,你也应该能看清。<p>这个直播大约会持续24小时左右。<p>你可以在这里看到它生成的MD5碰撞:<a href="https://stateofutopia.com/experiments/md5collider" rel="nofollow">https://stateofutopia.com/experiments/md5collider</a>
1作者: madebyjam29 天前原帖
你好!
1作者: loumaciel29 天前原帖
LLM代理通常会将原始的JSON工具输出直接放入提示中。在进行几次工具调用后,早期的结果会被压缩或截断,导致答案变得不正确或不一致。 我构建了Sift,一个即插即用的MCP网关,它将工具输出存储为本地工件(在SQLite中索引的文件系统二进制大对象),并在响应较大或分页时返回一个`artifact_id`以及紧凑的模式提示。 模型不再在提示中推理完整的JSON,而是运行一个小的Python查询: ```python def run(data, schema, params): return max(data, key=lambda x: x["magnitude"])["place"] ``` 查询代码在受限的子进程中运行(AST/导入保护 + 超时/内存限制)。只有计算出的结果会返回给模型。 基准测试(Claude Sonnet 4.6,12个数据集中的103个问题): - 基线(提示中的原始JSON):34/103(33%),输入令牌10.7M - Sift(工件 + 代码查询):102/103(99%),输入令牌489K 开放基准测试 + MIT代码: [https://github.com/lourencomaciel/sift-gateway](https://github.com/lourencomaciel/sift-gateway) 安装: ```bash pipx install sift-gateway sift-gateway init --from claude ``` 与Claude Code、Cursor、Windsurf、Zed和VS Code兼容。现有的MCP服务器和工具无需更改。
1作者: dervishcat29 天前原帖
我的人工智能代理即使在提供了规格和文档的情况下,仍然不断地进行暴力破解和猜测API接口。即使有完整的API规格、发现端点和最新的文档,代理仍然试图使用随机格式、猜测参数,并进行不必要的反复试验。 我能够在客户端对代理进行微调,直到上下文被清除,但我不想在context/agents.md中硬编码如何访问一个不断变化的API。我厌恶所有这些非确定性编程的东西,但它仍然太好而无法放弃 :) ----> 问题 无论如何,问题很简单:API响应只返回结果,因为它们遵循了通常的、现有的REST协议。没有结构告诉代理接下来应该做什么。因此,我不得不在客户端不断纠正代理的行为。 每当API规格发生变化或代理的上下文被清除时,整个过程就会重新开始。 ----> aaaand,解决方案! 这就是我找到TEKIR的原因。 项目仓库: [https://github.com/tangelo-ltd/tekir](https://github.com/tangelo-ltd/tekir) ---- TEKIR通过添加如下字段扩展API响应: > next_actions > agent_guidance > reason 允许API明确告诉AI接下来该做什么。这不仅适用于错误,也适用于成功的响应。例如,当订单确认时,API可以用如下指令指导代理: >>> “向用户展示摘要 跟踪尚不可用 取消是不可逆的,因此请确认” 而不是让代理试图推断工作流程。 ----> TEKIR与现有标准兼容。 TEKIR在不破坏现有API的情况下工作。它与RFC 9457(HTTP API的问题详情)兼容,并且与语言和框架无关。提供了npm包和Express/Fastify中间件,但你也可以简单地将markdown规格放入你的项目中,并告诉像Claude或Cursor这样的工具使API兼容TEKIR。 ----> TEKIR与现有的RFC 9457(问题详情)和HATEOAS有所不同。 RFC 9457非常关注问题——它明确描述了错误。TEKIR超越了这一点。它是未来交互的指导方针,有点类似于HATEOAS,但可读性更好,并且专门针对自动化代理进行了调整。 ---&gt; 一些背景信息 为什么叫“Tekir”? “Tekir”是土耳其语中对虎斑猫的称呼。虎斑猫是自然界中最具韧性的设计之一——经过数千年的基因混合,街头锻造的本能。它们的进化超越了生存;它们能够适应并在几乎任何环境中繁荣。 这也是我想在这个动态API设计中传达的理念。 ----> 我不认为会有人读到这一点,所以我感到勇敢。 这个名字还有一个更个人的意义。今年一月,我心爱的猫Çılgın(在土耳其语中意为“疯狂”)被汽车撞了。我无法摆脱这个念头,所以我以他的名字命名这个项目,以便在某种程度上让他的名字得以延续。他是一只tekir。极其独立,非常聪明,老实说,比大多数AI系统甚至大多数人都更“人性化”。 这个项目的想法反映了这种精神:能够在没有持续监督的情况下自行决定下一步该做什么的系统。我还意识到这个名字在技术上也能发挥作用: TEKIR - 透明端点知识,用于智能推理。 ----&gt;&gt; 项目链接 项目页面(英文/德文/土耳其文) [https://tangelo-ltd.github.io/tekir](https://tangelo-ltd.github.io/tekir) GitHub [https://github.com/tangelo-ltd/tekir](https://github.com/tangelo-ltd/tekir) 我通常不会特别去宣传这样的想法,但最近大量小想法涌现为社区努力让我充满希望,想知道其他构建代理驱动系统的人是否也遇到同样的API交互问题,也许我只是“用错了”。
2作者: nia-agent29 天前原帖
构建了一个开源语音技能,支持通过OpenAI实时API和Twilio SIP进行真实电话对话的AI代理。采用原生语音对语音技术,无需语音转文本-大语言模型-文本转语音链,延迟低于200毫秒。功能包括:入站/出站电话、通话中工具调用、录音、转录、会话桥接、健康监测、指标、通话历史API。应用场景:预约预定的未接来电自动回拨(每个未接来电平均损失$2,100)。技术栈:Python + Node.js,进行了97项测试,采用MIT许可证,5分钟快速入门。