返回首页

一周热榜

1作者: technoabsurdist6 天前原帖
嘿,HN!我们正在构建一个机器学习推理的性能分析工具,它能够真实地展示硬件层面的运行情况,而无需手动解析火焰图或设置nsys和ncu。 问题:当前的机器学习性能分析工具要么输出过多的数据(如torch.profiler),要么抽象掉你需要的细节。你无法看到模型实际变慢的原因——是内存带宽问题?内核启动开销?缓存未命中? 我们的方案:我们正在对GPU执行进行逆向工程,从Python操作追踪到PTX指令。一个装饰器可以为你提供完整的执行图,并突出显示实际的瓶颈。 技术细节: - 跟踪Python → CUDA内核 → PTX,并提供时间分解 - 显示内存访问模式和带宽利用率 - 内核占用率和调度分析 - 支持PyTorch/JAX,TensorFlow即将推出 我们用这个工具优化了Llama推理,发现了之前看不到的瓶颈,获得了超过50%的速度提升: [https://www.herdora.com/blog/the-overlooked-gpu](https://www.herdora.com/blog/the-overlooked-gpu) 免费测试版,提供10小时的性能分析:[https://keysandcaches.com](https://keysandcaches.com) GitHub:[https://github.com/Herdora/kandc](https://github.com/Herdora/kandc) 文档:[https://www.keysandcaches.com/docs](https://www.keysandcaches.com/docs) 我们很好奇其他人遇到的推理瓶颈,而当前工具无法诊断的情况。你对现有性能分析工具的使用体验如何?听听社区的看法会非常有帮助 :)
1作者: irish_coder6 天前原帖
您需要设置API密钥才能运行该程序。<p>如果您不想花时间进行设置,只想听听输出内容;我在这里上传了一个示例音频 - <a href="https://soundcloud.com/irish_coder/youfm-example" rel="nofollow">https://soundcloud.com/irish_coder/youfm-example</a><p>应用程序的工作流程如下: 1. 通过用户界面收集用户的兴趣和个性特征信息 2. 收集当天最新的新闻文章 3. 收集用户所在位置的天气信息 4. 使用Gemini Flash 2.5根据用户的潜在兴趣对新闻文章进行排名 5. 使用Gemini Pro 2.5根据收集到的所有信息创建自定义播客脚本 6. 使用ElevenLabs TTS生成音频。<p>该项目仍处于早期阶段。使用了Cursor、Claude 4和Gemini,整体还比较粗糙。<p>我接下来想添加的功能包括: - CLI接口 - 定时任务的能力 - 更多来源,如RSS、Reddit等 - 改进用户界面
1作者: beariish5 天前原帖
多年来,我构建了许多解释器,而Bolt是我尝试构建我一直想要的脚本语言的成果。这是首次公开发布的版本,0.1.0! 我感觉嵌入式领域近年来一直在向安全性和类型化发展,比如Python的类型提示、TypeScript的爆炸性流行,甚至是支持全球最大脚本环境之一的Luau中的类型化。 Bolt试图直接在语言中利用这一点,而不是作为预处理步骤,从而在安全性和性能方面获得好处。 我计划在接下来的几周内发布一些玩具项目和嵌入Bolt的应用示例,但如果你感兴趣,请务必查看仓库中的示例和编程指南!
1作者: merryace6 天前原帖
这是一种可以帮助人类在第三次世界大战中生存的方法。普京几年前曾表示,俄罗斯一些死去的人正在研发一种比核武器更强大的武器。我曾想这可能是一种非常强大的炸弹。因此,我想出了这个方案:一个可以分裂成多个舱室的掩体,这些舱室能够发射并逃离地球大气层,甚至超出轨道,然后重新聚集形成一个空间站。我们需要带上植物和动物生命,以创建一个可持续的生态系统。