展示HN:构建了一个9MB的GPU内核,达到43M操作/秒,并支持确定性重放
我开发了一个自定义的GPU内核,能够每秒处理超过4000万次并行代理操作,同时在多次运行中保持明显的确定性结果——这在GPU并行处理领域通常被认为是不可能的。
性能演示: [https://youtu.be/Y3Jg8RCZ65c](https://youtu.be/Y3Jg8RCZ65c)
确定性证明: [https://youtu.be/fk7NMNGcfSY](https://youtu.be/fk7NMNGcfSY)
整个运行时小于10MB。欢迎讨论潜在的应用!
联系方式: autoscriptlabs@gmail.com
查看原文
I've developed a custom GPU kernel that handles 40+ million parallel agent operations per second while maintaining apparently deterministic results across runs - something typically considered impossible with GPU parallel processing.<p>Performance demo: <a href="https://youtu.be/Y3Jg8RCZ65c" rel="nofollow">https://youtu.be/Y3Jg8RCZ65c</a>
Determinism proof: <a href="https://youtu.be/fk7NMNGcfSY" rel="nofollow">https://youtu.be/fk7NMNGcfSY</a><p>The entire runtime is under 10MB. Open to discussing potential applications!<p>autoscriptlabs@gmail.com