20250321

大模型训练离不开GPU

GPU 算力成本,虽然较之前有所下降,但依旧不便宜。所以,对于普通人来说,寻找到合适稳定的算力平台,是开始训练大模型的第一步。

国内以阿里云、字节火山引擎、腾讯云这三家为主,国外的算力平台,可以参考 Modal、Lambda 等创业公司,Google、AWS、NVIDIA 等老牌算力平台。

此外,微调服务可以使用 Fireworks.AI、Together.AI 等平台。

如何启动一个云平台的GPU服务呢?

今天跑通了 Modal workspace,主要借助朋友 Alex 的代码:https://github.com/ipruning/run-your-py-on-serverless-gpu

夸他真的是造福社会呀,让人人都能用上 H100 尝试大模型训练。

LLM 训练为何需要使用 GPU?

GPU 之所以能加速大语言模型(LLM)的训练,主要源于其并行计算能力极强,特别适合处理深度学习中大量矩阵乘法等线性代数运算。 分两个部分讲解:

一、GPU 为什么能加速 LLM 训练?

  1. 深度学习的本质是线性代数
    神经网络,特别是 Transformer 结构,涉及大量的矩阵乘法、向量运算、张量变换。以一个 Transformer 为例,仅一个前向传播就要进行数十次大规模矩阵乘法,而这些都是高度可并行的操作。

  2. GPU 原本为图像处理设计,本身善于并行处理矩阵
    图像处理任务(如像素填充、卷积等)天然是并行的。因此,GPU 拥有成千上万个小计算核心,专门用于在多个数据上同时执行同一个操作(SIMD/SIMT 模型)。

  3. 相比 CPU 的串行优势,GPU 更适合“数据并行”
    CPU 核心少但每个核心很强,适合复杂逻辑判断。GPU 则反之,拥有成千上万个更“轻”的核心,更适合执行大量简单而重复的数学计算。

  4. CUDA 和深度学习框架支持
    NVIDIA 的 CUDA 编程平台允许开发者控制 GPU 上的并行计算。TensorFlow、PyTorch 等框架都能无缝调用 GPU 加速张量运算。

二、GPU 参与深度学习的起源是什么?

GPU 被用于深度学习,其实并非一开始就是计划好的,而是一个“意外的惊喜”。

关键契机:2012 年 AlexNet 的成功

  • 2012 年 ImageNet 比赛上,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 提出卷积神经网络 AlexNet,首次使用 GPU(两块 NVIDIA GTX 580)训练深度网络
  • AlexNet 把前所未有的大模型训练跑出来,精度远超传统方法,震惊了整个计算机视觉领域
  • 他们之所以用 GPU,不是为了潮流,而是因为 CPU 太慢,训练要几周甚至几个月。当时 CUDA 刚刚成熟,Alex 用它加速训练,只需几天就能完成。

这次成功直接开启了“GPU + 深度学习” 的时代。