返回首页
最新
我在一台 H100 PCIe 80GB 节点上进行了 A/B 基准测试。连续的内存拷贝(memcpy)在基线和优化运行中均保持约 1.86 TB/s,显示没有额外开销。对于跨步(strided)和未对齐访问,基线速度约为 230 GB/s,而优化版本达到了约 1.86 TB/s,约提升了 8 倍。大负载(8–24 GB)同样保持在约 1.86 TB/s。典型的 CUDA 核心,如内存拷贝、跨步访问、KV 缓存和层归一化(LayerNorm),从约 220–330 GB/s 提升至约 1.8–1.86 TB/s,速度提高了 7–8 倍,且抖动非常低。
使用简单的 LLM 解码成本模型(BPT = 1.13 MB/token),吞吐量从约 161.9k token/s 提升至约 225.1k token/s(≈1.39 倍)。这表明,像 KV 缓存和跨步加载这样的内存绑定操作可以更接近于带宽上限,从而直接影响解码吞吐量。
我对这样的内存绑定优化在 LLM 训练与推理中的影响,以及接下来测试哪些好的公共长上下文(8k–32k)基准感兴趣,欢迎反馈。