返回首页

一周热榜

1作者: silasalberti4 天前原帖
嗨,我们刚刚发布了一篇关于 Kevin-32B = K(ernel D)evin 的博客文章。<p>据我们所知,这是第一个在 CUDA 内核上进行强化学习训练的开源模型。我们的目标是展示使用 GRPO 进行多轮强化学习。我们使用了来自 KernelBench 数据集的 180 个 Python 到 CUDA 的转换任务。<p>结果令人惊讶地强劲!我们能够超越顶尖的推理模型,如 o3 和 o4-mini。<p>我们在博客文章中分享了我们的训练设置和经验。此外,该模型已在 HuggingFace 上发布:<a href="https://huggingface.co/cognition-ai/Kevin-32B" rel="nofollow">https://huggingface.co/cognition-ai/Kevin-32B</a>