2作者: sr54343 个月前原帖
Kaggle 宣布他们将用 v5e-8 替换 v3-8 的 TPU,但出于某种原因,我在 v5e-8 上运行代码时遇到了内存溢出(OOM),而在 v3-8 上运行时没有。有没有人知道这可能是什么原因?作为参考,我正在使用 Torch XLA 训练一个 15 亿参数的 GPT 模型。