展示HN:构建了一个9MB的GPU内核,达到43M操作/秒,并支持确定性重放

1作者: TacosInMyPocket8 个月前原帖
我开发了一个自定义的GPU内核,能够每秒处理超过4000万次并行代理操作,同时在多次运行中保持明显的确定性结果——这在GPU并行处理领域通常被认为是不可能的。 性能演示: [https://youtu.be/Y3Jg8RCZ65c](https://youtu.be/Y3Jg8RCZ65c) 确定性证明: [https://youtu.be/fk7NMNGcfSY](https://youtu.be/fk7NMNGcfSY) 整个运行时小于10MB。欢迎讨论潜在的应用! 联系方式: autoscriptlabs@gmail.com
查看原文
I&#x27;ve developed a custom GPU kernel that handles 40+ million parallel agent operations per second while maintaining apparently deterministic results across runs - something typically considered impossible with GPU parallel processing.<p>Performance demo: <a href="https:&#x2F;&#x2F;youtu.be&#x2F;Y3Jg8RCZ65c" rel="nofollow">https:&#x2F;&#x2F;youtu.be&#x2F;Y3Jg8RCZ65c</a> Determinism proof: <a href="https:&#x2F;&#x2F;youtu.be&#x2F;fk7NMNGcfSY" rel="nofollow">https:&#x2F;&#x2F;youtu.be&#x2F;fk7NMNGcfSY</a><p>The entire runtime is under 10MB. Open to discussing potential applications!<p>autoscriptlabs@gmail.com