返回首页
最新
嘿,HN,我对一个小型开源模型进行了微调,用于高尔夫预测,结果它在预测高尔夫结果方面超过了GPT-5。相同的方法可以用于构建任何领域的专用模型,只需更新几个搜索查询。
我们使用LoRA对gpt-oss-120b进行了微调,针对3,178个高尔夫预测问题,采用Brier分数作为奖励的GRPO方法。
在855个保留问题上,我们的模型在Brier技能(17%对比12.8%)和ECE(6%对比10.6%)上超越了GPT-5。
如何尝试:模型和数据集都是开源的,代码可以在Hugging Face上找到。
如何构建自己的专用模型:更新Lightning Rod SDK中的搜索查询和指令,以生成新的预测数据集,然后运行相同的GRPO + LoRA配方。
SDK链接:<a href="https://github.com/lightning-rod-labs/lightningrod-python-sdk" rel="nofollow">https://github.com/lightning-rod-labs/lightningrod-python-sd...</a>
数据集:<a href="https://huggingface.co/datasets/LightningRodLabs/GolfForecasting" rel="nofollow">https://huggingface.co/datasets/LightningRodLabs/GolfForecas...</a>
模型:<a href="https://huggingface.co/LightningRodLabs/Golf-Forecaster" rel="nofollow">https://huggingface.co/LightningRodLabs/Golf-Forecaster</a>
欢迎提出问题、对SDK的反馈以及对新领域的建议。
在这个[周末](<a href="https://ctftime.org/team/425785" rel="nofollow">https://ctftime.org/team/425785</a>)进行了测试,花费了100美元,分别用于xai(35美元)、google(35美元)和anthropic(25美元)。<p>- xai:grok-4-1-fast-reasoning解决了8个问题<p>- google:gemini-3-flash-preview解决了5个问题(基于xai的基础上)<p>- anthropic:opus-4-5没有解决任何额外的问题,另外由于不断出现429速率限制,我感到有些烦恼,真希望当初换用openai,但我不想继续花钱。<p>在web和加密领域表现不错,但在pwn方面表现较差。<p>基于开发容器构建。
嘿,HN,
我经常处理一些比较混乱的CSV和JSON文件——重复数据、不一致的格式,或者就是难以检查。
我通常需要在Excel、脚本和一些随机的在线工具之间跳来跳去。
所以我开始构建一个小型的基于浏览器的工具,以便简化这个过程。
现在它可以让你:
- 在JSON、CSV和Excel格式之间转换
- 快速去除重复项
- 以可视化的方式过滤和重塑数据
- 检查文件中的基本问题
还有更多功能。
所有操作都在浏览器中进行——无需上传到服务器。
虽然还处于早期阶段,但我很想知道你们对这个产品的体验和看法。
也许我遗漏了什么,或者思考不够全面,你们的反馈对我来说非常重要。
期待你们的反馈。
我想问的是:
- 在你的数据工作流程或数据任务中,有什么事情让你觉得拖慢了进度,或者经常让你感到尖锐的痛苦?
链接: [https://www.datumintapp.com/](https://www.datumintapp.com/)
我开发了 SIB-ENGINE,一个实时幻觉检测系统,监测大型语言模型(LLM)的内部结构,而不是输出内容。
<p>关键结果(Gemma-2B,N=1000):
• 54% 的幻觉检测率,假阳性率为 7%
• 计算开销 <1%(在 4GB 显存的 RTX 3050 上运行)
• ROC-AUC:0.8995
<p>为什么它不同:
传统方法对输出文本进行语义分析。SIB-ENGINE 监测生成过程中隐藏状态的“几何漂移”,在第一个错误标记被采样之前识别潜在空间的结构崩溃。
<p>这种方法提供了独特的优势:
• 实时干预:可以在生成过程中随时停止
• 语言无关:无需进行语义分析
• 保护隐私:从不读取实际内容
• 极其轻量:可在消费级硬件上运行
<p>工作原理:
SIB-ENGINE 监测模型计算的内部稳定性。虽然系统利用多种结构信号来检测不稳定性,但两个主要指标包括:
<p>表示稳定性:跟踪初始意图在模型变换空间中是如何被保留或扭曲的。
<p>跨层对齐:监测不同神经层次之间信息处理的一致性,以识别早期的偏离。
<p>当这些(以及其他专有结构信号)偏离预期的稳定流形时,系统会在输出中显现之前标记出潜在的幻觉。
<p>演示与代码:
• 演示视频:<a href="https://www.youtube.com/watch?v=H1_zDC0SXQ8" rel="nofollow">https://www.youtube.com/watch?v=H1_zDC0SXQ8</a>
• GitHub:<a href="https://github.com/yubainu/sibainu-engine" rel="nofollow">https://github.com/yubainu/sibainu-engine</a>
• 原始数据:raw_logs.csv(完全透明)
<p>局限性:
• 仅在 Gemma-2B 上测试(2.5B 参数)
• 设计为可扩展,但需要在更大模型上验证
• 捕捉“结构不稳定”的幻觉(约占一半)
• 最好作为集成系统中的第一道防线
<p>技术说明:
• 不需要外部模型(与自一致性方法不同)
• 不需要知识库(与 RAG 方法不同)
• 增加约 1% 的推理时间,而语义方法则为 300-500%
• 通过监测过程而非产品来工作
<p>我希望得到反馈:
• 在更大模型上的验证(寻求战略合作伙伴和计算资源以进行大规模验证。)
• 生产系统的集成模式
• 与其他结构方法的比较
• 几何信号失效的边缘案例
<p>这代表了一种根本不同的范式:我们不再问“这段文本正确吗?”,而是问“生成过程是否不稳定?”答案出乎意料地富有信息。
<p>欢迎在评论中讨论技术细节!