TPU v3-8与v5e-8有什么不同?2 分•作者: sr5434•3 个月前•原帖Kaggle 宣布他们将用 v5e-8 替换 v3-8 的 TPU,但出于某种原因,我在 v5e-8 上运行代码时遇到了内存溢出(OOM),而在 v3-8 上运行时没有。有没有人知道这可能是什么原因?作为参考,我正在使用 Torch XLA 训练一个 15 亿参数的 GPT 模型。