2作者: bturtel大约 1 个月前原帖
嘿,HN,我对一个小型开源模型进行了微调,用于高尔夫预测,结果它在预测高尔夫结果方面超过了GPT-5。相同的方法可以用于构建任何领域的专用模型,只需更新几个搜索查询。 我们使用LoRA对gpt-oss-120b进行了微调,针对3,178个高尔夫预测问题,采用Brier分数作为奖励的GRPO方法。 在855个保留问题上,我们的模型在Brier技能(17%对比12.8%)和ECE(6%对比10.6%)上超越了GPT-5。 如何尝试:模型和数据集都是开源的,代码可以在Hugging Face上找到。 如何构建自己的专用模型:更新Lightning Rod SDK中的搜索查询和指令,以生成新的预测数据集,然后运行相同的GRPO + LoRA配方。 SDK链接:<a href="https:&#x2F;&#x2F;github.com&#x2F;lightning-rod-labs&#x2F;lightningrod-python-sdk" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;lightning-rod-labs&#x2F;lightningrod-python-sd...</a> 数据集:<a href="https:&#x2F;&#x2F;huggingface.co&#x2F;datasets&#x2F;LightningRodLabs&#x2F;GolfForecasting" rel="nofollow">https:&#x2F;&#x2F;huggingface.co&#x2F;datasets&#x2F;LightningRodLabs&#x2F;GolfForecas...</a> 模型:<a href="https:&#x2F;&#x2F;huggingface.co&#x2F;LightningRodLabs&#x2F;Golf-Forecaster" rel="nofollow">https:&#x2F;&#x2F;huggingface.co&#x2F;LightningRodLabs&#x2F;Golf-Forecaster</a> 欢迎提出问题、对SDK的反馈以及对新领域的建议。
1作者: bigEnotation大约 1 个月前原帖
在这个[周末](<a href="https:&#x2F;&#x2F;ctftime.org&#x2F;team&#x2F;425785" rel="nofollow">https:&#x2F;&#x2F;ctftime.org&#x2F;team&#x2F;425785</a>)进行了测试,花费了100美元,分别用于xai(35美元)、google(35美元)和anthropic(25美元)。<p>- xai:grok-4-1-fast-reasoning解决了8个问题<p>- google:gemini-3-flash-preview解决了5个问题(基于xai的基础上)<p>- anthropic:opus-4-5没有解决任何额外的问题,另外由于不断出现429速率限制,我感到有些烦恼,真希望当初换用openai,但我不想继续花钱。<p>在web和加密领域表现不错,但在pwn方面表现较差。<p>基于开发容器构建。
1作者: sumit_entr42大约 1 个月前原帖
嘿,HN, 我经常处理一些比较混乱的CSV和JSON文件——重复数据、不一致的格式,或者就是难以检查。 我通常需要在Excel、脚本和一些随机的在线工具之间跳来跳去。 所以我开始构建一个小型的基于浏览器的工具,以便简化这个过程。 现在它可以让你: - 在JSON、CSV和Excel格式之间转换 - 快速去除重复项 - 以可视化的方式过滤和重塑数据 - 检查文件中的基本问题 还有更多功能。 所有操作都在浏览器中进行——无需上传到服务器。 虽然还处于早期阶段,但我很想知道你们对这个产品的体验和看法。 也许我遗漏了什么,或者思考不够全面,你们的反馈对我来说非常重要。 期待你们的反馈。 我想问的是: - 在你的数据工作流程或数据任务中,有什么事情让你觉得拖慢了进度,或者经常让你感到尖锐的痛苦? 链接: [https://www.datumintapp.com/](https://www.datumintapp.com/)
1作者: yubainu大约 1 个月前原帖
我开发了 SIB-ENGINE,一个实时幻觉检测系统,监测大型语言模型(LLM)的内部结构,而不是输出内容。 <p>关键结果(Gemma-2B,N=1000): • 54% 的幻觉检测率,假阳性率为 7% • 计算开销 <1%(在 4GB 显存的 RTX 3050 上运行) • ROC-AUC:0.8995 <p>为什么它不同: 传统方法对输出文本进行语义分析。SIB-ENGINE 监测生成过程中隐藏状态的“几何漂移”,在第一个错误标记被采样之前识别潜在空间的结构崩溃。 <p>这种方法提供了独特的优势: • 实时干预:可以在生成过程中随时停止 • 语言无关:无需进行语义分析 • 保护隐私:从不读取实际内容 • 极其轻量:可在消费级硬件上运行 <p>工作原理: SIB-ENGINE 监测模型计算的内部稳定性。虽然系统利用多种结构信号来检测不稳定性,但两个主要指标包括: <p>表示稳定性:跟踪初始意图在模型变换空间中是如何被保留或扭曲的。 <p>跨层对齐:监测不同神经层次之间信息处理的一致性,以识别早期的偏离。 <p>当这些(以及其他专有结构信号)偏离预期的稳定流形时,系统会在输出中显现之前标记出潜在的幻觉。 <p>演示与代码: • 演示视频:<a href="https://www.youtube.com/watch?v=H1_zDC0SXQ8" rel="nofollow">https://www.youtube.com/watch?v=H1_zDC0SXQ8</a> • GitHub:<a href="https://github.com/yubainu/sibainu-engine" rel="nofollow">https://github.com/yubainu/sibainu-engine</a> • 原始数据:raw_logs.csv(完全透明) <p>局限性: • 仅在 Gemma-2B 上测试(2.5B 参数) • 设计为可扩展,但需要在更大模型上验证 • 捕捉“结构不稳定”的幻觉(约占一半) • 最好作为集成系统中的第一道防线 <p>技术说明: • 不需要外部模型(与自一致性方法不同) • 不需要知识库(与 RAG 方法不同) • 增加约 1% 的推理时间,而语义方法则为 300-500% • 通过监测过程而非产品来工作 <p>我希望得到反馈: • 在更大模型上的验证(寻求战略合作伙伴和计算资源以进行大规模验证。) • 生产系统的集成模式 • 与其他结构方法的比较 • 几何信号失效的边缘案例 <p>这代表了一种根本不同的范式:我们不再问“这段文本正确吗?”,而是问“生成过程是否不稳定?”答案出乎意料地富有信息。 <p>欢迎在评论中讨论技术细节!