返回首页
最新
我不确定为什么直播质量这么低,我花了一段时间选择了4K。我能够看清文字,你也应该能看清。<p>这个直播大约会持续24小时左右。<p>你可以在这里看到它生成的MD5碰撞:<a href="https://stateofutopia.com/experiments/md5collider" rel="nofollow">https://stateofutopia.com/experiments/md5collider</a>
你好!
LLM代理通常会将原始的JSON工具输出直接放入提示中。在进行几次工具调用后,早期的结果会被压缩或截断,导致答案变得不正确或不一致。
我构建了Sift,一个即插即用的MCP网关,它将工具输出存储为本地工件(在SQLite中索引的文件系统二进制大对象),并在响应较大或分页时返回一个`artifact_id`以及紧凑的模式提示。
模型不再在提示中推理完整的JSON,而是运行一个小的Python查询:
```python
def run(data, schema, params):
return max(data, key=lambda x: x["magnitude"])["place"]
```
查询代码在受限的子进程中运行(AST/导入保护 + 超时/内存限制)。只有计算出的结果会返回给模型。
基准测试(Claude Sonnet 4.6,12个数据集中的103个问题):
- 基线(提示中的原始JSON):34/103(33%),输入令牌10.7M
- Sift(工件 + 代码查询):102/103(99%),输入令牌489K
开放基准测试 + MIT代码:
[https://github.com/lourencomaciel/sift-gateway](https://github.com/lourencomaciel/sift-gateway)
安装:
```bash
pipx install sift-gateway
sift-gateway init --from claude
```
与Claude Code、Cursor、Windsurf、Zed和VS Code兼容。现有的MCP服务器和工具无需更改。
我的人工智能代理即使在提供了规格和文档的情况下,仍然不断地进行暴力破解和猜测API接口。即使有完整的API规格、发现端点和最新的文档,代理仍然试图使用随机格式、猜测参数,并进行不必要的反复试验。
我能够在客户端对代理进行微调,直到上下文被清除,但我不想在context/agents.md中硬编码如何访问一个不断变化的API。我厌恶所有这些非确定性编程的东西,但它仍然太好而无法放弃 :)
----> 问题
无论如何,问题很简单:API响应只返回结果,因为它们遵循了通常的、现有的REST协议。没有结构告诉代理接下来应该做什么。因此,我不得不在客户端不断纠正代理的行为。
每当API规格发生变化或代理的上下文被清除时,整个过程就会重新开始。
----> aaaand,解决方案!
这就是我找到TEKIR的原因。
项目仓库:
[https://github.com/tangelo-ltd/tekir](https://github.com/tangelo-ltd/tekir)
----
TEKIR通过添加如下字段扩展API响应:
> next_actions
> agent_guidance
> reason
允许API明确告诉AI接下来该做什么。这不仅适用于错误,也适用于成功的响应。例如,当订单确认时,API可以用如下指令指导代理:
>>> “向用户展示摘要
跟踪尚不可用
取消是不可逆的,因此请确认”
而不是让代理试图推断工作流程。
----> TEKIR与现有标准兼容。
TEKIR在不破坏现有API的情况下工作。它与RFC 9457(HTTP API的问题详情)兼容,并且与语言和框架无关。提供了npm包和Express/Fastify中间件,但你也可以简单地将markdown规格放入你的项目中,并告诉像Claude或Cursor这样的工具使API兼容TEKIR。
----> TEKIR与现有的RFC 9457(问题详情)和HATEOAS有所不同。
RFC 9457非常关注问题——它明确描述了错误。TEKIR超越了这一点。它是未来交互的指导方针,有点类似于HATEOAS,但可读性更好,并且专门针对自动化代理进行了调整。
---> 一些背景信息
为什么叫“Tekir”?
“Tekir”是土耳其语中对虎斑猫的称呼。虎斑猫是自然界中最具韧性的设计之一——经过数千年的基因混合,街头锻造的本能。它们的进化超越了生存;它们能够适应并在几乎任何环境中繁荣。
这也是我想在这个动态API设计中传达的理念。
----> 我不认为会有人读到这一点,所以我感到勇敢。
这个名字还有一个更个人的意义。今年一月,我心爱的猫Çılgın(在土耳其语中意为“疯狂”)被汽车撞了。我无法摆脱这个念头,所以我以他的名字命名这个项目,以便在某种程度上让他的名字得以延续。他是一只tekir。极其独立,非常聪明,老实说,比大多数AI系统甚至大多数人都更“人性化”。
这个项目的想法反映了这种精神:能够在没有持续监督的情况下自行决定下一步该做什么的系统。我还意识到这个名字在技术上也能发挥作用:
TEKIR - 透明端点知识,用于智能推理。
---->> 项目链接
项目页面(英文/德文/土耳其文)
[https://tangelo-ltd.github.io/tekir](https://tangelo-ltd.github.io/tekir)
GitHub
[https://github.com/tangelo-ltd/tekir](https://github.com/tangelo-ltd/tekir)
我通常不会特别去宣传这样的想法,但最近大量小想法涌现为社区努力让我充满希望,想知道其他构建代理驱动系统的人是否也遇到同样的API交互问题,也许我只是“用错了”。
yutu 是一个命令行界面(CLI)、多通道平台(MCP)服务器和 YouTube 的人工智能代理,能够自动化您的整个 YouTube 工作流程。
构建了一个开源语音技能,支持通过OpenAI实时API和Twilio SIP进行真实电话对话的AI代理。采用原生语音对语音技术,无需语音转文本-大语言模型-文本转语音链,延迟低于200毫秒。功能包括:入站/出站电话、通话中工具调用、录音、转录、会话桥接、健康监测、指标、通话历史API。应用场景:预约预定的未接来电自动回拨(每个未接来电平均损失$2,100)。技术栈:Python + Node.js,进行了97项测试,采用MIT许可证,5分钟快速入门。