新增内容AI 共创
AI播客:大型语言模型缩放定律:性能、规模与算力的数学法则

什么是 Scaling Law(缩放定律)

scaling-law

Scaling Law(缩放定律)是指大型语言模型(LLM)的性能与模型规模、数据规模、计算资源之间存在的可预测的数学关系

这一发现彻底改变了 AI 研究的方向,推动了从小模型到超大模型的范式转变。

核心发现

预计阅读时间: 9 分钟

2020 年,OpenAI 在论文 Scaling Laws for Neural Language Models 中首次系统性地揭示了这一规律:

关键结论:

  • 模型性能(通常用损失函数 Loss 衡量)与三个因素呈现幂律关系(Power Law):
    1. 模型大小(参数量 N)
    2. 数据集大小(训练 token 数 D)
    3. 计算量(FLOPs,即浮点运算次数 C)

数学表达:

LossNα(模型大小)LossDβ(数据大小)LossCγ(计算量)\begin{aligned} \text{Loss} &\propto N^{-\alpha} \quad \text{(模型大小)} \\ \text{Loss} &\propto D^{-\beta} \quad \text{(数据大小)} \\ \text{Loss} &\propto C^{-\gamma} \quad \text{(计算量)} \end{aligned}

其中 α,β,γ\alpha, \beta, \gamma 是常数

通俗理解:

  • 参数量增加 10 倍 → 性能提升约 2-3 倍
  • 数据量增加 10 倍 → 性能提升约 1.5-2 倍
  • 计算量增加 10 倍 → 性能提升约 2 倍

三大缩放维度

1. 模型大小(参数量)

参数量代表模型能力描述
125M (1.25亿)GPT-2 Small基础语言生成
1.5B (15亿)GPT-2 XL简单对话、基础推理
7B (70亿)LLaMA-7B, Mistral-7B实用级对话、代码生成
13B (130亿)LLaMA-13B, Vicuna-13B较强推理能力
70B (700亿)LLaMA-70B接近 GPT-3.5 水平
175B (1750亿)GPT-3强大的通用能力
540B+PaLM, GPT-4 (推测)顶级性能

观察:

  • 7B → 70B:10 倍参数,性能提升 ~2-3 倍
  • 70B → 175B:2.5 倍参数,性能提升 ~1.5 倍
  • 收益递减规律明显

2. 数据大小(训练 token 数)

数据量相当于代表模型
300B (3000亿)几百本书GPT-3 (初版)
1T (1万亿)一个大图书馆LLaMA
2T (2万亿)大部分互联网文本LLaMA 2
15T (15万亿)几乎全网Gemini 1.0

Chinchilla 定律(2022):

DeepMind 提出优化的数据-参数比例:

最优训练 token 数 ≈ 20 × 参数量 例如: 70B 参数模型 → 应该训练 1.4T token 175B 参数模型 → 应该训练 3.5T token

结论:

  • GPT-3(175B 参数,300B token)训练不足
  • LLaMA(7B-65B 参数,1-2T token)训练充分

这解释了为什么 LLaMA-70B 能接近 GPT-3 的性能,尽管参数量只有一半。

3. 计算量(FLOPs)

训练一个模型需要的总计算量:

C (FLOPs)6×N×DC \text{ (FLOPs)} \approx 6 \times N \times D

其中:

  • NN = 参数量
  • DD = 训练 token 数

示例:

GPT-3(175B 参数,300B token): C = 6 × 175B × 300B = 3.15 × 10^23 FLOPs ≈ 3000 petaFLOP-days(在 V100 上需要约 355 年) 实际使用: - 10,000 张 V100 GPU - 训练约 1 个月 - 成本:~1000 万美元

Scaling Law 的实际应用

1. 模型设计决策

问题: 给定 1000 万美元预算,应该训练多大的模型?

传统做法: 凭经验试错

Scaling Law 做法: 用公式预测

预算 → 可用 GPU 小时 → 总计算量 C 根据 C 确定最优的 (N, D) 组合

结论(基于 Chinchilla):

  • 不要只追求大参数
  • 应该平衡模型大小和训练数据量
  • 7B 模型训练 2T token > 70B 模型训练 200B token

2. 性能预测

案例:GPT-4 的规划

OpenAI 在训练 GPT-4 之前,通过小规模实验(1M-10M 参数)拟合 Scaling Law:

  1. 训练一系列小模型
  2. 绘制 Loss vs 模型大小/数据量 曲线
  3. 外推到大模型(1T+ 参数)
  4. 预测最终性能

结果: 预测误差 < 5%

这让 OpenAI 敢于投入上亿美元训练 GPT-4,因为他们提前知道能得到什么

3. 成本优化

问题: 如何在预算内最大化性能?

Chinchilla 的答案:

✗ 旧思路:尽可能大的模型 + 尽量少的数据 GPT-3: 175B 参数, 300B token ✓ 新思路:平衡模型和数据 Chinchilla: 70B 参数, 1.4T token 结果:性能更好,推理成本更低

成本对比:

模型参数训练 token训练成本推理成本性能
GPT-3175B300B极高基准
Chinchilla70B1.4T同等低 40%+5%

4. 小模型的逆袭

发现: 小模型 + 充分训练 > 大模型 + 不足训练

示例:

  • LLaMA-7B(训练 1T token)超过 GPT-3 (175B)
  • Mistral-7B(精选数据 + 充分训练)接近 LLaMA-13B

启示:

  • 开源社区可以用更少资源训练强大模型
  • 数据质量 > 数据数量

Scaling Law 的局限性

1. 收益递减

观察:

1B → 10B:性能大幅提升(10倍投入,3倍收益) 10B → 100B:提升明显(10倍投入,2倍收益) 100B → 1T:提升减缓(10倍投入,1.5倍收益)

结论: 不可能无限缩放

2. 涌现能力(Emergent Abilities)

某些能力在特定规模突然出现,难以预测:

  • 数学推理:在 ~60B 参数时突然变强
  • 多步推理:在 ~100B 参数时显著改善
  • 指令遵循:在 ~10B 参数时出现

这些"涌现"能力不遵循平滑的 Scaling Law。

3. 特定任务的饱和

示例:

  • 简单分类任务:7B 模型就够了,继续扩大无意义
  • 常识问答:70B 已接近饱和
  • 数学竞赛题:即使 1T 参数也不行(需要新架构)

4. 数据瓶颈

问题: 互联网的高质量文本是有限的

估计:

  • 全网高质量文本:~10T token
  • 已被用于训练:~5T token

后果:

  • 继续扩大数据量 → 只能加入低质量数据
  • 低质量数据 → 性能提升不明显甚至下降

解决方案:

  • 数据去重(LLaMA 2 做了激进去重)
  • 合成数据(用 AI 生成训练数据)
  • 多模态数据(图片、视频、音频)

后 Scaling Law 时代

1. 测试时计算(Test-Time Compute)

新思路: 不只在训练时堆资源,也在推理时堆资源

代表:

  • OpenAI o1:推理时"慢思考",花更多时间解题
  • DeepSeek-R1:通过强化学习让模型学会推理

结果:

  • 7B 模型 + 10 分钟思考 > 70B 模型 + 1 秒回答(在数学题上)

2. 数据质量优先

从数量到质量:

  • ✗ 爬取全网数据(15T token)
  • ✓ 精选高质量数据(2T token)

案例:

  • Phi-3:3.8B 参数,只用精选数据,性能接近 7B 主流模型
  • Mistral-7B:精选数据 + 优化架构,超越 LLaMA-13B

3. 架构创新

不只靠规模,也靠设计:

  • MoE(混合专家):1T 参数,但每次只用 8B(如 DeepSeek-V3)
  • 更好的注意力机制:Flash Attention, GQA, MQA
  • 更长的上下文:1M token 上下文窗口(Gemini 1.5)

4. 后训练优化

发现: SFT + RLHF 的性价比极高

投入:

预训练 GPT-3:1000 万美元 SFT + RLHF:50 万美元(仅 5%) 性能提升:30-50%(用户满意度)

结论: 后训练比预训练性价比更高

对行业的影响

1. 大厂的军备竞赛

观察:

  • OpenAI:GPT-3 → GPT-4 → GPT-5(传言)
  • Google:PaLM → Gemini → Gemini 2
  • Meta:LLaMA → LLaMA 2 → LLaMA 3

趋势: 训练成本从千万美元飙升到数亿美元

2. 开源社区的策略

无法拼算力,改拼效率:

  • 优化数据质量(少而精)
  • 改进训练方法(蒸馏、量化)
  • 专注小模型(7B-70B)

成果:

  • LLaMA 系列(Meta 开源)
  • Mistral 系列(欧洲创业公司)
  • Qwen 系列(阿里巴巴)

3. 商业模式的分化

两种路线:

路线 1:超大模型 API

  • 代表:OpenAI, Anthropic, Google
  • 成本:数亿美元
  • 定价:按 token 收费,贵但强

路线 2:本地小模型

  • 代表:Mistral, LLaMA, Phi
  • 成本:数百万美元
  • 定价:开源或低成本,够用但不顶尖

常见问题

Q: Scaling Law 是否意味着"参数越大越好"?

A: 不完全是。Chinchilla 定律表明,应该平衡参数量和训练数据量

Q: 为什么 OpenAI 还在追求更大的模型?

A: 因为:

  1. 有些能力只在大规模时涌现
  2. 用户愿意为顶级性能付费
  3. 技术护城河(小公司追不上)

Q: Scaling Law 在未来还会有效吗?

A: 可能会遇到瓶颈:

  • 数据枯竭(高质量数据有限)
  • 能源限制(训练一个模型耗电量 = 一个小镇一年用电)
  • 芯片限制(H100 产能有限)

但短期内(5 年)仍然有效。

参考资料