返回首页
最新
我们开发了 Chisel,以实现无硬件的 GPU 内核性能分析。您只需运行 `chisel profile kernel.cu`,即可获得完整的 Nsight/Ncompute 或 rocprofv3 报告,而无需使用 GPU。
它可以快速启动远程的 H100、L40S 或 MI300X 机器(目前通过 DigitalOcean,但我们会很快扩展后端),运行您的代码,并返回详细的跟踪信息(内核时间、内存传输、API 调用等)。所有操作均基于命令行,旨在支持迭代开发——每次分析大约需要 1-2 分钟。
例如:
# 在 H100 上使用 Nsight Systems 分析 PyTorch 训练脚本
`chisel profile --nsys train.py`
# 在 MI300X 上使用系统跟踪分析 HIP 内核
`chisel profile --rocprofv3="--sys-trace" matrix_add.cpp`
代码库: [https://github.com/Herdora/chisel](https://github.com/Herdora/chisel)
PyPI:`pip install chisel-cli`
我们非常希望收到反馈!特别是来自那些构建自定义内核、机器学习层或低级 GPU 操作的开发者。
我17岁,最近推出了Biohack的私人测试版——这是一款扫描食品产品并根据对衰老因素(如炎症、欧米伽比率、毒素等)的影响来给出长寿评分的工具。<p>虽然还处于早期阶段,功能还有些粗糙,但我希望能从关注健康寿命和深度营养的人那里获得诚实的反馈。<p>非常期待你的想法。