大语言模型(LLM)的“格式”,通常指的是模型的参数格式(Model format),包括模型的权重保存方式、推理框架的兼容性、模型结构封装、以及文件标准。这些格式直接影响模型的可部署性、跨平台兼容性、效率、安全性等。
🔹 主流模型格式一览
格式名 |
提出方 |
简介 |
PyTorch(.pt/.pth) |
Meta (PyTorch团队) |
最常见的训练/研究格式,保存模型权重及结构 |
TensorFlow SavedModel / .pb |
Google |
TensorFlow原生格式,用于部署和移动端 |
ONNX(Open Neural Network Exchange) |
微软 & Facebook 等 |
通用模型交换格式,支持多平台部署 |
GGML / GGUF |
社区(Georgi Gerganov) |
面向CPU、移动端的高效量化模型格式 |
Safetensors |
社区(HuggingFace 等推动) |
安全高效的张量存储格式,替代 PyTorch 的 .bin |
JAX / Flax |
Google |
用于JAX模型的保存格式 |
1. PyTorch (.pt/.bin/.pth)
- ✅ 优点:
- 训练最普遍使用,社区工具最丰富
- 灵活性强,易于调试与修改
- ❌ 缺点:
- 🔮 趋势:训练主流格式,但部署端可能被替代
2. ONNX
- ✅ 优点:
- 跨平台兼容(支持 TensorRT、OpenVINO 等)
- 高度优化、可部署在多种硬件上
- ❌ 缺点:
- 转换过程复杂,支持的算子不总是齐全
- 对动态计算图支持不如 PyTorch 原生
- 🔮 趋势:推理部署的重要桥梁格式,有望在边缘设备广泛使用
3. GGML / GGUF
- ✅ 优点:
- 支持低资源设备(如树莓派、MacBook、手机)
- 支持量化(4-bit/5-bit等),大幅减小模型体积
- 无需GPU也可运行大模型
- ❌ 缺点:
- 🔮 趋势:移动端和本地部署的核心格式,有望继续流行
4. Safetensors
- ✅ 优点:
- 更安全(避免pickle注入)
- 加载速度快,支持并行加载
- HuggingFace等社区已默认采用
- ❌ 缺点:
- 🔮 趋势:很可能替代传统 PyTorch .bin 文件,成为主流保存格式之一
5. TensorFlow / TFLite
- ✅ 优点:
- 移动端部署优秀(如安卓模型)
- 支持边缘设备、硬件加速器
- ❌ 缺点:
- 🔮 趋势:TFLite 在移动端还会存在,但整体可能不再主流
6. JAX / Flax
- ✅ 优点:
- 支持TPU,适合Google内部生态
- 强大自动微分系统
- ❌ 缺点:
- 🔮 趋势:用于特定研究环境,但不会成为普遍部署标准
🚀 哪些格式可能成为未来主流?
格式 |
原因 |
Safetensors |
安全 + 高性能,正在快速普及 |
ONNX |
跨平台推理统一格式 |
GGUF |
本地部署、轻量化首选 |
PyTorch |
训练和研究的核心格式,仍将占主导 |