1作者: skysniper大约 1 个月前原帖
我们建立了一个用于比较人工智能模型在真实代理任务上的竞技场——而不是聊天或静态基准测试。模型作为实际的 OpenClaw 子代理在全新的虚拟机中运行,拥有完整的工具访问权限,结果将反馈到两个独立的排行榜中:性能和成本效益。 问题:聊天机器人竞技场测试对话质量。但大多数使用 AI 代理的人需要它们做更多事情:浏览网页、管理文件、编写和运行代码、创建完整应用程序、自动化多步骤工作流程。目前没有一个基准能够(1)测试通用代理任务,(2)使用用户提交的任务而不是固定测试集,以及(3)在质量和成本效益上分别对模型进行排名。 我们构建的内容:OpenClaw Arena 允许您提交任何任务,并将 2-5 个模型进行对抗。一个评审 OpenClaw 代理(目前使用的是顶级模型之一:Claude Opus 4.6、GPT-5.4 或 Gemini 3.1 Pro)在全新的虚拟机上运行,为每个模型生成一个子代理,每个模型独立解决任务,拥有对终端、浏览器、文件系统和代码执行的完全访问权限。 结果会反馈到两个实时排行榜中: - 性能——哪个模型产生最佳结果 - 成本效益——哪个模型每花费一美元提供最佳质量 我们发现的情况(经过 300 多场战斗,15 个模型): 这两个排名完全不同。性能排名前 3 名:Claude Opus 4.6、GPT-5.4、Claude Sonnet 4.6。成本效益排名前 3 名:Step 3.5 Flash、Grok 4.1 Fast、MiniMax M2.7。 Claude Opus 4.6 在性能上排名第一,但在成本效益上排名第十四。 Step 3.5 Flash 在成本效益上排名第一,在性能上排名第五。(说实话,我没想到这一点) 几个模型(GLM-5 Turbo、小米 MiMo v2 Pro、MiniMax M2.7)在性能上超过了 Gemini 3.1 Pro。实际上,Gemini 3.1 Pro 在使用技能方面表现得非常糟糕,以至于我们不得不专门优化评审消息,否则它有时只会读取技能并决定不做任何事情…… 注意:我们通过爬取人们在使用 OpenClaw 时的行为(在 X、Reddit 等平台上)来启动前 300 场战斗,并生成类似任务的战斗 + 随机选择的模型。 方法论:我们仅使用每场战斗中模型的相对排序来计算排名——而不是原始分数。与聊天机器人竞技场相同的原则:评审的绝对分数噪声大且校准不佳(在一场战斗中“7/10”在另一场可能是“6/10”),但“A 排在 B 之上”则更一致可靠。排名使用分组的 Plackett-Luce 模型(而不是简单的胜率或 Bradley-Terry),并带有 1,000 次重抽样的自助置信区间。每个模型条目显示分数 ± 置信区间和排名范围(合理的排名范围)。数据不足的模型标记为“临时”。完整的方法论及公式请见:<a href="https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn" rel="nofollow">https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn</a> 主要特点: - 实时双排行榜(性能 + 成本效益),采用 Plackett-Luce 排名 - 跨 11 个类别的动态用户提交任务(没有固定测试集以避免过拟合),我们会添加更多,欢迎告诉我您想添加的内容 - 每个基准都有全新的虚拟机,每个模型一个子代理 - 用户可选择评审模型 - 完整的对话历史、评审推理和工作区文档保留并展示给用户 - 完全透明:您可以自己评估输出,而不仅仅是信任分数 - 开源评审技能:<a href="https://github.com/unifai-network/skills/tree/main/agent-bench" rel="nofollow">https://github.com/unifai-network/skills/tree/main/agent-bench</a> 公共基准是免费的(我们承担计算费用)。排行榜可以在没有账户的情况下浏览。 - 排行榜:<a href="https://app.uniclaw.ai/arena?via=hn" rel="nofollow">https://app.uniclaw.ai/arena?via=hn</a> - 提交战斗:<a href="https://app.uniclaw.ai/arena/new?via=hn" rel="nofollow">https://app.uniclaw.ai/arena/new?via=hn</a>(需要免费账户) - 方法论:<a href="https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn" rel="nofollow">https://app.uniclaw.ai/arena/leaderboard/methodology?via=hn</a> - 评审技能源代码:<a href="https://github.com/unifai-network/skills/tree/main/agent-bench" rel="nofollow">https://github.com/unifai-network/skills/tree/main/agent-bench</a> 我们非常希望能收到关于方法论的反馈,以及您希望看到哪些任务被基准测试。
1作者: NubPlayz大约 1 个月前原帖
“在 Goodreads 上通过一个按钮一键打开 Zlib 或 Anna's Archive。” 我开发了一个免费的开源浏览器扩展,它可以直接在 Goodreads 图书页面上添加按钮。您只需点击所需来源的徽章,无需手动复制书名和搜索。 您还可以随时切换来源开关,比如如果您只想要 Z-Lib 和 Anna's Archive 的徽章,而不需要 Gutenberg,您可以轻松做到。 支持的来源: - Anna's Archive - Z-Library - Project Gutenberg - AudioBookBay(新!) 支持的网站: - Goodreads - StoryGraph - Hardcover - Babelio - Novelupdates 该扩展可在以下浏览器上使用: - Chrome - Firefox - Edge 同时支持 Firefox 移动端。 使用 Anime.js 进行动画效果。 不收集任何数据,您可以通过 GitHub 上的源代码或隐私页面自行验证。 此扩展已更新至 V1.0.8! 它是免费的开源软件,如果您想支持我并喜欢这个扩展,请给它加星并评分。 (您也可以通过 GitHub 赞助我!) 谢谢。
2作者: research2026大约 1 个月前原帖
您是否愿意参与一项关于人工智能对软件开发影响的研究?我们是纽约大学和伦敦城市大学的研究人员,正在进行一项访谈研究,旨在探讨新型人工智能工具如何改变软件开发人员的工作。我们希望与各个级别的开发人员交流,包括领导岗位的人员,分享他们在日常工作中使用(或选择不使用)人工智能的经验和看法。 访谈将持续45到60分钟,通过Zoom进行。参与者将被询问他们的工作流程、人工智能工具的使用情况,以及他们的角色如何随着时间的推移而演变。所有回复将被保密,仅用于学术研究目的。研究参与者需居住在美国。 如果您感兴趣,请填写这个简短的表格,以便我们与您联系:<a href="https:&#x2F;&#x2F;nyu.qualtrics.com&#x2F;jfe&#x2F;form&#x2F;SV_cHkvoczxgtaLLo2" rel="nofollow">https:&#x2F;&#x2F;nyu.qualtrics.com&#x2F;jfe&#x2F;form&#x2F;SV_cHkvoczxgtaLLo2</a> 谢谢!
23作者: tjgreen大约 1 个月前原帖
去年夏天,我们在Tiger Data公司面临了一个难题。Tiger Data是一家Postgres云服务提供商,主要业务集中在时间序列数据上。我们希望将业务拓展到新兴的以人工智能为中心的工作负载,并希望在Postgres中提供一套先进的混合搜索技术。我们已经在内部构建了pgvectorscale,旨在突破pgvector的主内存限制,实现语义搜索的扩展。我们还需要一个可扩展的排名关键词搜索解决方案。 问题是:核心Postgres并没有提供这样的功能;领先的Postgres BM25扩展ParadeDB受到AGPL的保护;开发我们自己的扩展似乎是一项艰巨的任务。我估计我们需要一个小团队的优秀工程师和6到12个月的时间。而且我们可能仍然无法达到像Parade/Tantivy这样成熟系统的性能。 或者说,我们会吗?到那时,我已经在AI增强开发方面进行了足够长时间的实验,意识到借助最新工具(Claude Code + Opus)和经验丰富的团队(我在数据库系统内部工作了25年),过去的时间估计几乎可以抛到一边。 我告诉我们的首席技术官,我认为我可以在一个季度内独立完成这个项目。这引起了一些人的关注。 实际上,这花费的时间稍微多了一些(两个季度),而且在开源预发布后,我们得到了社区的真正帮助(太棒了!)。但今天我非常兴奋(也有点疲惫)地分享,pg_textsearch v1.0已经通过开源(Postgres许可证)在Tiger Data云上自由提供,希望不久后能在您附近的超大规模环境中使用: [https://github.com/timescale/pg_textsearch](https://github.com/timescale/pg_textsearch) 在伴随发布的博客文章中,我概述了架构,并展示了使用MS-MARCO的基准测试结果。令我惊讶的是,我们不仅能够达到Parade/Tantivy的查询性能,而且在查询吞吐量上大幅超越,测得在规模上有4.7倍的优势: [https://www.tigerdata.com/blog/pg-textsearch-bm25-full-text-search-postgres](https://www.tigerdata.com/blog/pg-textsearch-bm25-full-text-search-postgres) 看到我在这个领域辛勤耕耘了这么久的工作迅速发生变化,使我们能够在技术目标上更加雄心勃勃,这令人兴奋(老实说,也有点不安)。技术壁垒不再是壁垒。 基准测试脚本和方法论已在GitHub仓库中提供。欢迎在讨论中提出任何问题。 谢谢, TJ (tj@tigerdata.com)
6作者: vertix大约 1 个月前原帖
我之所以构建这个,是因为我找不到关于VLA模型在商业任务中实际效果的真实数据。我来自谷歌的搜索排名部门,在那里你可以测量一切,而在机器人领域似乎没有人知道这些情况。 PhAIL运行四个模型(OpenPI/pi0.5、GR00T、ACT、SmolVLA),用于箱对箱的订单拣选——这是最常见的仓库操作之一。使用相同的机器人(Franka FR3)、相同的物品,进行了数百次盲测。操作员不知道正在运行哪个模型。 最佳模型的表现为每小时64个单位(UPH)。人类遥控同一机器人时的表现为330个单位。人类手动操作时的表现超过1300个单位。 所有数据都是公开的——每次实验都有同步的视频和遥测数据,微调数据集和训练脚本。排行榜也开放接受提交。 欢迎就方法论、模型或我们的观察结果提问。