9作者: supai17 天前原帖
嗨,HN。我是Ken,一名20岁的斯坦福大学计算机科学学生。我开发了Sup AI。 我开始做这个是因为没有任何单一的AI模型总是正确,但它们的错误并不强相关。换句话说,模型往往会相对于其他模型犯独特的错误。因此,我并行运行多个模型,并根据置信度对输出进行加权合成。输出的令牌概率分布中的低熵与准确性相关。高熵通常是幻觉开始的地方。 我的父亲Scott(TRI的AI研究科学家)是我的研究伙伴。他随时给我发论文,我们争论这些论文是否真的适用以及哪些修改是合理的,然后我进行构建和测试。熵加权的方法正是源于其中一次对话。 在我们对“人类的最后考试”的评估中,Sup的得分为52.15%。在同一评估中,最佳单一模型的得分为44.74%。这个相对差距在统计上是显著的(p < 0.001)。 方法论、评估代码、数据和原始结果: - [https://sup.ai/research/hle-white-paper-jan-9-2026](https://sup.ai/research/hle-white-paper-jan-9-2026) - [https://github.com/supaihq/hle](https://github.com/supaihq/hle) 局限性: - 我们评估了2,500个HLE问题中的1,369个(详细信息见上述链接)。 - 并非所有API都公开令牌的对数概率;当它们不公开时,我们使用几种方法来估计置信度。 我们曾尝试提供免费访问,但遭到严重滥用,几乎让我们无法继续。目前可持续的选项是5美元的启动信用,需进行卡片验证(不自动扣费)。如果您不想注册,可以在评论中留下提示,我会亲自运行并发布结果。 可以在 [https://sup.ai](https://sup.ai) 尝试。我的父亲Scott(@scottmu)也在这个讨论中。希望能收到直接的反馈,特别是在哪些方面对您有效,在哪些方面不足。 这是一个简短的演示视频:[https://www.youtube.com/watch?v=DRcns0rRhsg](https://www.youtube.com/watch?v=DRcns0rRhsg)