Mar 21, 2025

20250321

大模型训练离不开GPU

GPU 算力成本，虽然较之前有所下降，但依旧不便宜。所以，对于普通人来说，寻找到合适稳定的算力平台，是开始训练大模型的第一步。

国内以阿里云、字节火山引擎、腾讯云这三家为主，国外的算力平台，可以参考 Modal、Lambda 等创业公司，Google、AWS、NVIDIA 等老牌算力平台。

此外，微调服务可以使用 Fireworks.AI、Together.AI 等平台。

如何启动一个云平台的GPU服务呢？

今天跑通了 Modal workspace，主要借助朋友 Alex 的代码：https://github.com/ipruning/run-your-py-on-serverless-gpu

夸他真的是造福社会呀，让人人都能用上 H100 尝试大模型训练。

GPU 之所以能加速大语言模型（LLM）的训练，主要源于其并行计算能力极强，特别适合处理深度学习中大量矩阵乘法等线性代数运算。分两个部分讲解：

深度学习的本质是线性代数
神经网络，特别是 Transformer 结构，涉及大量的矩阵乘法、向量运算、张量变换。以一个 Transformer 为例，仅一个前向传播就要进行数十次大规模矩阵乘法，而这些都是高度可并行的操作。
GPU 原本为图像处理设计，本身善于并行处理矩阵
图像处理任务（如像素填充、卷积等）天然是并行的。因此，GPU 拥有成千上万个小计算核心，专门用于在多个数据上同时执行同一个操作（SIMD/SIMT 模型）。
相比 CPU 的串行优势，GPU 更适合“数据并行”
CPU 核心少但每个核心很强，适合复杂逻辑判断。GPU 则反之，拥有成千上万个更“轻”的核心，更适合执行大量简单而重复的数学计算。
CUDA 和深度学习框架支持
NVIDIA 的 CUDA 编程平台允许开发者控制 GPU 上的并行计算。TensorFlow、PyTorch 等框架都能无缝调用 GPU 加速张量运算。

GPU 被用于深度学习，其实并非一开始就是计划好的，而是一个“意外的惊喜”。

2012 年 ImageNet 比赛上，Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 提出卷积神经网络 AlexNet，首次使用 GPU（两块 NVIDIA GTX 580）训练深度网络。
AlexNet 把前所未有的大模型训练跑出来，精度远超传统方法，震惊了整个计算机视觉领域。
他们之所以用 GPU，不是为了潮流，而是因为 CPU 太慢，训练要几周甚至几个月。当时 CUDA 刚刚成熟，Alex 用它加速训练，只需几天就能完成。

这次成功直接开启了“GPU + 深度学习” 的时代。

Daily