嘿,HN!我是Mert。
我之所以构建这个,是因为我对大型语言模型(LLM)基准测试可能受到训练数据污染感到沮丧。当一个模型在MMLU-Pro-Max上得分99.9%时,我们无法判断这是真正的推理还是记忆。
Forecaster Arena试图通过在尚未发生的事件上测试模型来解决这个问题——来自Polymarket的真实预测市场。真实情况将在几周或几个月后显现。
它的工作原理如下:
7个前沿的LLM(GPT-5.1、Claude Opus 4.5、Gemini、Grok、DeepSeek等)(将会更新) -> 每个模型每周获得10,000美元的虚拟资本 -> 它们在500多个真实预测市场上下注 -> 下注金额 = 信心(下注越大,信心越强) -> 我们测量校准度(Brier分数)和收益(盈亏)
目前正在进行第一批测试(于12月7日开始)。预计在接下来的几周内会有首次统计显著性分析结果。
一切都是开源的(MIT许可证):[https://github.com/setrf/forecasterarena](https://github.com/setrf/forecasterarena)
欢迎提问关于实现或我所做权衡的任何问题。也很期待听到你们对该方法的反馈!
返回首页
最新
我觉得阅读一下网站上其他人给他们孩子买的东西,以及这些孩子的年龄,会是件很有帮助的事。这些东西不一定要与科技有关。<p>编辑:除了Robux : D
我开发TrackSplit是因为我想在练习鼓时能够伴随我最喜欢的歌曲,而不被原始鼓轨道干扰。
现有的解决方案如LALAL.AI和Moises需要将音频上传到他们的服务器。我希望有一个本地运行的工具,这样既能保护隐私,又不想再订阅另一个服务。
TrackSplit可以将任何歌曲分离成六个音轨:人声、鼓、贝斯、吉他、钢琴和其他。它完全在你的Mac上运行,无需互联网连接。
技术细节:
- 使用Swift/SwiftUI构建,内嵌Python后端
- 使用HTDemucs v4(混合变换器Demucs)进行音轨分离
- 在Apple Silicon上通过Metal/MPS实现GPU加速
- 在M1上处理大多数4分钟的歌曲约需90秒
使用场景:
- 音乐家在歌曲伴奏下练习(去除自己的乐器)
- 创建卡拉OK伴奏
- DJ提取人声
- 进行混音和采样
在Mac App Store上售价19.99美元(一次性购买,无需订阅)。