返回首页
最新
你对内存损坏漏洞有什么看法?这是因为像C/C++这样的低级语言造成的吗,还是仅仅是技能问题?<p>我们真的应该转向Rust吗?<p>在我看来,我认为不需要。
嘿,HN!我们正在构建一个机器学习推理的性能分析工具,它能够真实地展示硬件层面的运行情况,而无需手动解析火焰图或设置nsys和ncu。
问题:当前的机器学习性能分析工具要么输出过多的数据(如torch.profiler),要么抽象掉你需要的细节。你无法看到模型实际变慢的原因——是内存带宽问题?内核启动开销?缓存未命中?
我们的方案:我们正在对GPU执行进行逆向工程,从Python操作追踪到PTX指令。一个装饰器可以为你提供完整的执行图,并突出显示实际的瓶颈。
技术细节:
- 跟踪Python → CUDA内核 → PTX,并提供时间分解
- 显示内存访问模式和带宽利用率
- 内核占用率和调度分析
- 支持PyTorch/JAX,TensorFlow即将推出
我们用这个工具优化了Llama推理,发现了之前看不到的瓶颈,获得了超过50%的速度提升: [https://www.herdora.com/blog/the-overlooked-gpu](https://www.herdora.com/blog/the-overlooked-gpu)
免费测试版,提供10小时的性能分析:[https://keysandcaches.com](https://keysandcaches.com)
GitHub:[https://github.com/Herdora/kandc](https://github.com/Herdora/kandc)
文档:[https://www.keysandcaches.com/docs](https://www.keysandcaches.com/docs)
我们很好奇其他人遇到的推理瓶颈,而当前工具无法诊断的情况。你对现有性能分析工具的使用体验如何?听听社区的看法会非常有帮助 :)
您需要设置API密钥才能运行该程序。<p>如果您不想花时间进行设置,只想听听输出内容;我在这里上传了一个示例音频 - <a href="https://soundcloud.com/irish_coder/youfm-example" rel="nofollow">https://soundcloud.com/irish_coder/youfm-example</a><p>应用程序的工作流程如下:
1. 通过用户界面收集用户的兴趣和个性特征信息
2. 收集当天最新的新闻文章
3. 收集用户所在位置的天气信息
4. 使用Gemini Flash 2.5根据用户的潜在兴趣对新闻文章进行排名
5. 使用Gemini Pro 2.5根据收集到的所有信息创建自定义播客脚本
6. 使用ElevenLabs TTS生成音频。<p>该项目仍处于早期阶段。使用了Cursor、Claude 4和Gemini,整体还比较粗糙。<p>我接下来想添加的功能包括:
- CLI接口
- 定时任务的能力
- 更多来源,如RSS、Reddit等
- 改进用户界面
这是一种可以帮助人类在第三次世界大战中生存的方法。普京几年前曾表示,俄罗斯一些死去的人正在研发一种比核武器更强大的武器。我曾想这可能是一种非常强大的炸弹。因此,我想出了这个方案:一个可以分裂成多个舱室的掩体,这些舱室能够发射并逃离地球大气层,甚至超出轨道,然后重新聚集形成一个空间站。我们需要带上植物和动物生命,以创建一个可持续的生态系统。
嗨,HN!<p>我开发了 TimerMe - 一个简单的生产力计时器,专注于做好一件事。<p>GitHub: <a href="https://github.com/imseantang/timerme" rel="nofollow">https://github.com/imseantang/timerme</a>
在线网站: <a href="https://www.timerme.com" rel="nofollow">https://www.timerme.com</a><p>## 有趣之处:<p>*动态主题系统* - 整个用户界面(包括 favicon!)瞬间改变颜色。使用 CSS 自定义属性实现无缝主题切换。<p>*多种计时器类型* - 具有预设时长的倒计时器、带圈记录的精确秒表,以及适用于多个时区的世界时钟。<p>*快速且轻量* - 使用 HonoX(Hono + Vite)在 Cloudflare Pages 上部署。除了交互组件外,客户端不使用 JavaScript 框架。<p>*智能世界时钟* - 自动检测您的时区,显示时间段指示(早晨/下午/晚上),并包含国家旗帜。<p>## 技术决策:<p>- *岛屿架构* - 只有计时器/秒表组件在客户端进行水合,其他一切都是静态的。
- *SEO友好的 URL* - 每个计时器时长都有自己的路径(`/timer/25`,`/timer/5` 等),以提高可发现性。
- *核心功能无外部依赖* - 使用 Web Audio API 实现计时器声音。
- *移动优先响应式* - 使用 Flexbox 排序属性在小屏幕上重新排列布局。<p>## 我为什么要开发这个:<p>找不到一个完全符合我需求的计时工具,所以我自己做了一个。<p>## 尝试一下:
- *25分钟番茄钟*: <a href="https://www.timerme.com/timer/25" rel="nofollow">https://www.timerme.com/timer/25</a>
- *5分钟休息*: <a href="https://www.timerme.com/timer/5" rel="nofollow">https://www.timerme.com/timer/5</a>
- *秒表*: <a href="https://www.timerme.com/stopwatch" rel="nofollow">https://www.timerme.com/stopwatch</a>
- *世界时钟*: <a href="https://www.timerme.com/world-clock" rel="nofollow">https://www.timerme.com/world-clock</a><p>主题切换时 favicon 的变化可能是实现过程中最有趣的部分 - 需要协调 SVG 资产与 CSS 自定义属性系统。<p>这个项目是在几个周末完成的。希望能收到关于用户体验或技术方案的反馈!<p>技术栈:HonoX、TypeScript、Tailwind CSS、Cloudflare Pages