返回首页
一周热榜
嘿,HN!我们正在构建一个机器学习推理的性能分析工具,它能够真实地展示硬件层面的运行情况,而无需手动解析火焰图或设置nsys和ncu。
问题:当前的机器学习性能分析工具要么输出过多的数据(如torch.profiler),要么抽象掉你需要的细节。你无法看到模型实际变慢的原因——是内存带宽问题?内核启动开销?缓存未命中?
我们的方案:我们正在对GPU执行进行逆向工程,从Python操作追踪到PTX指令。一个装饰器可以为你提供完整的执行图,并突出显示实际的瓶颈。
技术细节:
- 跟踪Python → CUDA内核 → PTX,并提供时间分解
- 显示内存访问模式和带宽利用率
- 内核占用率和调度分析
- 支持PyTorch/JAX,TensorFlow即将推出
我们用这个工具优化了Llama推理,发现了之前看不到的瓶颈,获得了超过50%的速度提升: [https://www.herdora.com/blog/the-overlooked-gpu](https://www.herdora.com/blog/the-overlooked-gpu)
免费测试版,提供10小时的性能分析:[https://keysandcaches.com](https://keysandcaches.com)
GitHub:[https://github.com/Herdora/kandc](https://github.com/Herdora/kandc)
文档:[https://www.keysandcaches.com/docs](https://www.keysandcaches.com/docs)
我们很好奇其他人遇到的推理瓶颈,而当前工具无法诊断的情况。你对现有性能分析工具的使用体验如何?听听社区的看法会非常有帮助 :)
您需要设置API密钥才能运行该程序。<p>如果您不想花时间进行设置,只想听听输出内容;我在这里上传了一个示例音频 - <a href="https://soundcloud.com/irish_coder/youfm-example" rel="nofollow">https://soundcloud.com/irish_coder/youfm-example</a><p>应用程序的工作流程如下:
1. 通过用户界面收集用户的兴趣和个性特征信息
2. 收集当天最新的新闻文章
3. 收集用户所在位置的天气信息
4. 使用Gemini Flash 2.5根据用户的潜在兴趣对新闻文章进行排名
5. 使用Gemini Pro 2.5根据收集到的所有信息创建自定义播客脚本
6. 使用ElevenLabs TTS生成音频。<p>该项目仍处于早期阶段。使用了Cursor、Claude 4和Gemini,整体还比较粗糙。<p>我接下来想添加的功能包括:
- CLI接口
- 定时任务的能力
- 更多来源,如RSS、Reddit等
- 改进用户界面
多年来,我构建了许多解释器,而Bolt是我尝试构建我一直想要的脚本语言的成果。这是首次公开发布的版本,0.1.0!
我感觉嵌入式领域近年来一直在向安全性和类型化发展,比如Python的类型提示、TypeScript的爆炸性流行,甚至是支持全球最大脚本环境之一的Luau中的类型化。
Bolt试图直接在语言中利用这一点,而不是作为预处理步骤,从而在安全性和性能方面获得好处。
我计划在接下来的几周内发布一些玩具项目和嵌入Bolt的应用示例,但如果你感兴趣,请务必查看仓库中的示例和编程指南!
这是一种可以帮助人类在第三次世界大战中生存的方法。普京几年前曾表示,俄罗斯一些死去的人正在研发一种比核武器更强大的武器。我曾想这可能是一种非常强大的炸弹。因此,我想出了这个方案:一个可以分裂成多个舱室的掩体,这些舱室能够发射并逃离地球大气层,甚至超出轨道,然后重新聚集形成一个空间站。我们需要带上植物和动物生命,以创建一个可持续的生态系统。