返回首页
最新
NerdFlair 是一个可配置的 Bash 状态行和铃声/旋转器包,适用于 Claude Code。还包括光标扩展(仅限铃声)。
嗨,HN。我是Ken,一名20岁的斯坦福大学计算机科学学生。我开发了Sup AI。
我开始做这个是因为没有任何单一的AI模型总是正确,但它们的错误并不强相关。换句话说,模型往往会相对于其他模型犯独特的错误。因此,我并行运行多个模型,并根据置信度对输出进行加权合成。输出的令牌概率分布中的低熵与准确性相关。高熵通常是幻觉开始的地方。
我的父亲Scott(TRI的AI研究科学家)是我的研究伙伴。他随时给我发论文,我们争论这些论文是否真的适用以及哪些修改是合理的,然后我进行构建和测试。熵加权的方法正是源于其中一次对话。
在我们对“人类的最后考试”的评估中,Sup的得分为52.15%。在同一评估中,最佳单一模型的得分为44.74%。这个相对差距在统计上是显著的(p < 0.001)。
方法论、评估代码、数据和原始结果:
- [https://sup.ai/research/hle-white-paper-jan-9-2026](https://sup.ai/research/hle-white-paper-jan-9-2026)
- [https://github.com/supaihq/hle](https://github.com/supaihq/hle)
局限性:
- 我们评估了2,500个HLE问题中的1,369个(详细信息见上述链接)。
- 并非所有API都公开令牌的对数概率;当它们不公开时,我们使用几种方法来估计置信度。
我们曾尝试提供免费访问,但遭到严重滥用,几乎让我们无法继续。目前可持续的选项是5美元的启动信用,需进行卡片验证(不自动扣费)。如果您不想注册,可以在评论中留下提示,我会亲自运行并发布结果。
可以在 [https://sup.ai](https://sup.ai) 尝试。我的父亲Scott(@scottmu)也在这个讨论中。希望能收到直接的反馈,特别是在哪些方面对您有效,在哪些方面不足。
这是一个简短的演示视频:[https://www.youtube.com/watch?v=DRcns0rRhsg](https://www.youtube.com/watch?v=DRcns0rRhsg)
465个测试,无依赖
GitHub 正在为贡献代码的账户推出强制性的双重身份验证(2FA),并提供45天的注册时间。<p>根据我所了解,Aegis、Raivo 和 Ente 是最有前景的选择。还有其他推荐吗?或者对这三者有什么特别的看法?<p>谢谢!