返回首页
最新
我们建立了一个用于比较人工智能模型在真实代理任务上的竞技场——而不是聊天或静态基准测试。模型作为实际的 OpenClaw 子代理在全新的虚拟机中运行,拥有完整的工具访问权限,结果将反馈到两个独立的排行榜中:性能和成本效益。
问题:聊天机器人竞技场测试对话质量。但大多数使用 AI 代理的人需要它们做更多事情:浏览网页、管理文件、编写和运行代码、创建完整应用程序、自动化多步骤工作流程。目前没有一个基准能够(1)测试通用代理任务,(2)使用用户提交的任务而不是固定测试集,以及(3)在质量和成本效益上分别对模型进行排名。
我们构建的内容:OpenClaw Arena 允许您提交任何任务,并将 2-5 个模型进行对抗。一个评审 OpenClaw 代理(目前使用的是顶级模型之一:Claude Opus 4.6、GPT-5.4 或 Gemini 3.1 Pro)在全新的虚拟机上运行,为每个模型生成一个子代理,每个模型独立解决任务,拥有对终端、浏览器、文件系统和代码执行的完全访问权限。
结果会反馈到两个实时排行榜中:
- 性能——哪个模型产生最佳结果
- 成本效益——哪个模型每花费一美元提供最佳质量
我们发现的情况(经过 300 多场战斗,15 个模型):
这两个排名完全不同。性能排名前 3 名:Claude Opus 4.6、GPT-5.4、Claude Sonnet 4.6。成本效益排名前 3 名:Step 3.5 Flash、Grok 4.1 Fast、MiniMax M2.7。
Claude Opus 4.6 在性能上排名第一,但在成本效益上排名第十四。
Step 3.5 Flash 在成本效益上排名第一,在性能上排名第五。(说实话,我没想到这一点)
几个模型(GLM-5 Turbo、小米 MiMo v2 Pro、MiniMax M2.7)在性能上超过了 Gemini 3.1 Pro。实际上,Gemini 3.1 Pro 在使用技能方面表现得非常糟糕,以至于我们不得不专门优化评审消息,否则它有时只会读取技能并决定不做任何事情……
注意:我们通过爬取人们在使用 OpenClaw 时的行为(在 X、Reddit 等平台上)来启动前 300 场战斗,并生成类似任务的战斗 + 随机选择的模型。
方法论:我们仅使用每场战斗中模型的相对排序来计算排名——而不是原始分数。与聊天机器人竞技场相同的原则:评审的绝对分数噪声大且校准不佳(在一场战斗中“7/10”在另一场可能是“6/10”),但“A 排在 B 之上”则更一致可靠。排名使用分组的 Plackett-Luce 模型(而不是简单的胜率或 Bradley-Terry),并带有 1,000 次重抽样的自助置信区间。每个模型条目显示分数 ± 置信区间和排名范围(合理的排名范围)。数据不足的模型标记为“临时”。完整的方法论及公式请见:<a href="https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn" rel="nofollow">https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn</a>
主要特点:
- 实时双排行榜(性能 + 成本效益),采用 Plackett-Luce 排名
- 跨 11 个类别的动态用户提交任务(没有固定测试集以避免过拟合),我们会添加更多,欢迎告诉我您想添加的内容
- 每个基准都有全新的虚拟机,每个模型一个子代理
- 用户可选择评审模型
- 完整的对话历史、评审推理和工作区文档保留并展示给用户
- 完全透明:您可以自己评估输出,而不仅仅是信任分数
- 开源评审技能:<a href="https://github.com/unifai-network/skills/tree/main/agent-bench" rel="nofollow">https://github.com/unifai-network/skills/tree/main/agent-bench</a>
公共基准是免费的(我们承担计算费用)。排行榜可以在没有账户的情况下浏览。
- 排行榜:<a href="https://app.uniclaw.ai/arena?via=hn" rel="nofollow">https://app.uniclaw.ai/arena?via=hn</a>
- 提交战斗:<a href="https://app.uniclaw.ai/arena/new?via=hn" rel="nofollow">https://app.uniclaw.ai/arena/new?via=hn</a>(需要免费账户)
- 方法论:<a href="https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn" rel="nofollow">https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn</a>
- 评审技能源代码:<a href="https://github.com/unifai-network/skills/tree/main/agent-bench" rel="nofollow">https://github.com/unifai-network/skills/tree/main/agent-bench</a>
我们非常希望能收到关于方法论的反馈,以及您希望看到哪些任务被基准测试。
“在 Goodreads 上通过一个按钮一键打开 Zlib 或 Anna's Archive。”
我开发了一个免费的开源浏览器扩展,它可以直接在 Goodreads 图书页面上添加按钮。您只需点击所需来源的徽章,无需手动复制书名和搜索。
您还可以随时切换来源开关,比如如果您只想要 Z-Lib 和 Anna's Archive 的徽章,而不需要 Gutenberg,您可以轻松做到。
支持的来源:
- Anna's Archive
- Z-Library
- Project Gutenberg
- AudioBookBay(新!)
支持的网站:
- Goodreads
- StoryGraph
- Hardcover
- Babelio
- Novelupdates
该扩展可在以下浏览器上使用:
- Chrome
- Firefox
- Edge
同时支持 Firefox 移动端。
使用 Anime.js 进行动画效果。
不收集任何数据,您可以通过 GitHub 上的源代码或隐私页面自行验证。
此扩展已更新至 V1.0.8!
它是免费的开源软件,如果您想支持我并喜欢这个扩展,请给它加星并评分。
(您也可以通过 GitHub 赞助我!)
谢谢。
您是否愿意参与一项关于人工智能对软件开发影响的研究?我们是纽约大学和伦敦城市大学的研究人员,正在进行一项访谈研究,旨在探讨新型人工智能工具如何改变软件开发人员的工作。我们希望与各个级别的开发人员交流,包括领导岗位的人员,分享他们在日常工作中使用(或选择不使用)人工智能的经验和看法。
访谈将持续45到60分钟,通过Zoom进行。参与者将被询问他们的工作流程、人工智能工具的使用情况,以及他们的角色如何随着时间的推移而演变。所有回复将被保密,仅用于学术研究目的。研究参与者需居住在美国。
如果您感兴趣,请填写这个简短的表格,以便我们与您联系:<a href="https://nyu.qualtrics.com/jfe/form/SV_cHkvoczxgtaLLo2" rel="nofollow">https://nyu.qualtrics.com/jfe/form/SV_cHkvoczxgtaLLo2</a>
谢谢!
去年夏天,我们在Tiger Data公司面临了一个难题。Tiger Data是一家Postgres云服务提供商,主要业务集中在时间序列数据上。我们希望将业务拓展到新兴的以人工智能为中心的工作负载,并希望在Postgres中提供一套先进的混合搜索技术。我们已经在内部构建了pgvectorscale,旨在突破pgvector的主内存限制,实现语义搜索的扩展。我们还需要一个可扩展的排名关键词搜索解决方案。
问题是:核心Postgres并没有提供这样的功能;领先的Postgres BM25扩展ParadeDB受到AGPL的保护;开发我们自己的扩展似乎是一项艰巨的任务。我估计我们需要一个小团队的优秀工程师和6到12个月的时间。而且我们可能仍然无法达到像Parade/Tantivy这样成熟系统的性能。
或者说,我们会吗?到那时,我已经在AI增强开发方面进行了足够长时间的实验,意识到借助最新工具(Claude Code + Opus)和经验丰富的团队(我在数据库系统内部工作了25年),过去的时间估计几乎可以抛到一边。
我告诉我们的首席技术官,我认为我可以在一个季度内独立完成这个项目。这引起了一些人的关注。
实际上,这花费的时间稍微多了一些(两个季度),而且在开源预发布后,我们得到了社区的真正帮助(太棒了!)。但今天我非常兴奋(也有点疲惫)地分享,pg_textsearch v1.0已经通过开源(Postgres许可证)在Tiger Data云上自由提供,希望不久后能在您附近的超大规模环境中使用:
[https://github.com/timescale/pg_textsearch](https://github.com/timescale/pg_textsearch)
在伴随发布的博客文章中,我概述了架构,并展示了使用MS-MARCO的基准测试结果。令我惊讶的是,我们不仅能够达到Parade/Tantivy的查询性能,而且在查询吞吐量上大幅超越,测得在规模上有4.7倍的优势:
[https://www.tigerdata.com/blog/pg-textsearch-bm25-full-text-search-postgres](https://www.tigerdata.com/blog/pg-textsearch-bm25-full-text-search-postgres)
看到我在这个领域辛勤耕耘了这么久的工作迅速发生变化,使我们能够在技术目标上更加雄心勃勃,这令人兴奋(老实说,也有点不安)。技术壁垒不再是壁垒。
基准测试脚本和方法论已在GitHub仓库中提供。欢迎在讨论中提出任何问题。
谢谢,
TJ (tj@tigerdata.com)
我之所以构建这个,是因为我找不到关于VLA模型在商业任务中实际效果的真实数据。我来自谷歌的搜索排名部门,在那里你可以测量一切,而在机器人领域似乎没有人知道这些情况。
PhAIL运行四个模型(OpenPI/pi0.5、GR00T、ACT、SmolVLA),用于箱对箱的订单拣选——这是最常见的仓库操作之一。使用相同的机器人(Franka FR3)、相同的物品,进行了数百次盲测。操作员不知道正在运行哪个模型。
最佳模型的表现为每小时64个单位(UPH)。人类遥控同一机器人时的表现为330个单位。人类手动操作时的表现超过1300个单位。
所有数据都是公开的——每次实验都有同步的视频和遥测数据,微调数据集和训练脚本。排行榜也开放接受提交。
欢迎就方法论、模型或我们的观察结果提问。