返回首页
最新
作者之一。在进行这些实验时,有一些事情让我们感到惊讶:
这些任务来自于vLLM和SGLang中实际合并的PR,因此每个任务都有一个已知的良好人类解决方案。代理可以访问完整的代码库、问题描述和测试框架。这种设置相当慷慨。
我们没有预料到的是:代理在<i>诊断</i>问题方面表现得非常出色。它们能够阅读代码,找到瓶颈,并描述正确的修复方案。但生成的代码却存在微妙的错误,比如内核索引的越界、错误的张量形状以及缺失的同步屏障。这些问题在初步代码审查时可能会通过,但在负载下会导致段错误。
另一个奇怪的结果是:不同代码库之间的代理排名完全颠倒。Claude Code在vLLM中表现最佳(46%),但在SGLang中表现最差(27%)。而使用GPT-5的TRADE则呈现出相反的模式。尽管使用的是相同的基础模型,但代理的框架却不同。这表明,模型周围的框架至少与模型本身一样重要。
我们还尝试了三个开源模型,但没有一个能产生有效的优化。其中一个(MiniMax-M2.1)陷入了一个循环,打印了2412次“我现在需要真正使用工具”,却从未调用过工具。
基准测试、所有代理的记录和评估代码都是公开的:<a href="https://ayushnangia.github.io/iso-bench-website/" rel="nofollow">https://ayushnangia.github.io/iso-bench-website/</a>
我们对其他人对框架结果的看法感到好奇,特别是这个领域似乎尚未被充分探讨。
最近我经历了一系列亚马逊的发货失败。我订购了一整套16个包裹,结果只收到一个。与客服沟通后,又只收到一个。我订购的一个商品显示会在星期二送达,但下单后订单却显示星期五(延迟了3天)。我最后的小订单在一堆明显不真实的发货状态信息中迷失了。它原本说第二天就会送达,但实际上并没有发货。现在似乎已经丢失,而亚马逊只处理已送达的物品,对于丢失的物品没有任何帮助选项。
我感觉亚马逊的美好幻想现在正在崩溃。他们提供的发货状态信息并不诚实。这只是我个人的不幸吗?他们不再喜欢我了吗?还是说这种情况对每个人都一样?