1 分•作者: 3np•5 个月前•原帖

2 分•作者: tokai•5 个月前•原帖

1 分•作者: CharlesW•5 个月前•原帖

1 分•作者: GPUrouter•5 个月前•原帖

我在一台 H100 PCIe 80GB 节点上进行了 A/B 基准测试。连续的内存拷贝（memcpy）在基线和优化运行中均保持约 1.86 TB/s，显示没有额外开销。对于跨步（strided）和未对齐访问，基线速度约为 230 GB/s，而优化版本达到了约 1.86 TB/s，约提升了 8 倍。大负载（8–24 GB）同样保持在约 1.86 TB/s。典型的 CUDA 核心，如内存拷贝、跨步访问、KV 缓存和层归一化（LayerNorm），从约 220–330 GB/s 提升至约 1.8–1.86 TB/s，速度提高了 7–8 倍，且抖动非常低。使用简单的 LLM 解码成本模型（BPT = 1.13 MB/token），吞吐量从约 161.9k token/s 提升至约 225.1k token/s（≈1.39 倍）。这表明，像 KV 缓存和跨步加载这样的内存绑定操作可以更接近于带宽上限，从而直接影响解码吞吐量。我对这样的内存绑定优化在 LLM 训练与推理中的影响，以及接下来测试哪些好的公共长上下文（8k–32k）基准感兴趣，欢迎反馈。

在人工智能时代的“先占领后扩展”策略

1 分•作者: jordanhroga•5 个月前•原帖

人工智能制作了一部关于自己未来的电影 [视频]

1 分•作者: fcpguru•5 个月前•原帖

电子邮件签名与默认设置的力量

1 分•作者: Twixes•5 个月前•原帖

视频游戏制作周期越来越长，原因是什么呢？

1 分•作者: andsoitis•5 个月前•原帖

超越传统伪随机性，Tsotchkes的量子随机数生成

1 分•作者: ingen0s•5 个月前•原帖

修复机械键盘的最大问题 [视频]

1 分•作者: pathompong•5 个月前•原帖