模型训练指标

大模型训练关键指标参数文档

版本: v1.0
生成日期: 2026-05-25
说明: 本文档汇总了大语言模型(LLM)训练过程中的核心监控指标与关键参数,涵盖训练效率、模型质量、资源消耗等维度。


目录

  1. 训练效率指标
  2. 模型质量指标
  3. 资源消耗指标
  4. 训练稳定性指标
  5. 关键超参数配置
  6. 监控面板推荐配置
  7. 异常诊断速查表

一、训练效率指标

指标名称说明计算公式正常范围监控意义优化建议
Throughput (吞吐量)每秒处理的样本/token数总样本数 / 训练总时间视配置而定,追求最大化训练效率核心指标优化数据加载、混合精度、调整batch size
Time per Step每步训练耗时总时间 / 总步数毫秒~秒级,越小越好单次迭代效率检查GPU利用率、减少数据传输
GPU利用率GPU核心平均利用率活跃计算时间 / 总时间 × 100%80%-100%理想检测计算瓶颈多进程加载、pin_memory、优化通信
MFU (FLOPs利用率)实际FLOPs/理论峰值实际FLOPs / (峰值×GPU数×时间)30%-60%良好,>60%优秀硬件真实利用效率算子融合、减少同步、高效注意力
收敛速度达到目标性能所需步数达到目标loss的steps数与规模相关影响训练成本优化学习率调度、warmup

二、模型质量指标

指标名称说明计算公式正常范围监控意义异常信号优化建议
Training Loss训练集平均损失-Σ log P(yx) / N持续递减基本学习信号不下降、爆炸、震荡调学习率、查数据、梯度裁剪
Validation Loss验证集平均损失同Training Loss初期降,后期可能升检测过拟合val↑ train↓正则化、早停、数据增强
Perplexity (PPL)预测不确定性exp(Loss)视任务而定,越小越好语言模型标准评估同loss优化
Gradient Norm梯度L2范数√(Σ gᵢ²)1.0-10.0检测梯度爆炸/消失>100或<0.001梯度裁剪、调学习率
Learning Rate当前学习率调度策略决定warmup后衰减影响收敛cosine decay + warmup
Token Accuracy正确预测比例正确数 / 总数递增后平稳直观预测能力同loss优化

三、资源消耗指标

指标名称说明计算公式正常范围监控意义优化建议
显存占用GPU显存使用量参数+梯度+优化器状态+激活值<90%总显存防止OOM梯度累积、激活检查点、ZeRO
显存带宽利用率实际/理论带宽实际带宽 / 峰值带宽越高越好内存墙问题FlashAttention、优化数据布局
功耗加速器实时功耗硬件读取(W)接近TDP理想成本和散热优化计算效率、低精度训练
通信开销参数同步时间占比通信时间 / 总时间<20%良好分布式瓶颈梯度压缩、重叠通信、优化拓扑

四、训练稳定性指标

指标名称说明检测方法正常范围监控意义优化建议
Loss Spikeloss突然大幅上升当前loss > 前步×3尽量避免训练不稳定信号梯度裁剪、降学习率、查异常数据
梯度裁剪比例被裁剪梯度占比被裁剪数 / 总数<1%正常,>5%关注梯度爆炸频率调整裁剪阈值、查数据分布
激活值分布各层激活统计逐层均值/方差/极值均值≈0,方差适中检测激活爆炸/消失LayerNorm、合适初始化
权重更新比例更新量/权重比值‖Δw‖ / ‖w‖0.001-0.1学习率是否合适调学习率、自适应优化器

五、关键超参数配置

参数名称说明常见设置影响因素调优建议
Batch Size每步样本数全局: 1M-4M tokens显存、稳定性、泛化梯度累积达到目标
Learning Rate优化步长1e-4 ~ 1e-5收敛、性能、稳定性配合warmup和decay
Warmup Steps学习率预热步数总步数1%-5%初期稳定性大模型需更长warmup
Weight DecayL2正则化0.01 ~ 0.1防止过拟合不对embedding/bias应用
Gradient Clipping梯度上限1.0稳定性大模型训练必备
Max Seq Length最大序列长度2K, 4K, 8K, 128K显存、上下文能力按任务需求设定
Precision训练精度bf16, fp16, fp8, fp32显存、速度、稳定性推荐bf16
Optimizer优化器AdamW, Lion, Sophia收敛、内存AdamW最常用
LR Scheduler学习率调度Cosine, Linear, WSD收敛行为Cosine最常用
Data Parallel数据并行度视GPU数吞吐量、通信与模型/流水线并行配合
Model Parallel张量并行度1, 2, 4, 8单节点显存通常≤8
Pipeline Parallel流水线并行度视层数显存、气泡interleaved schedule

六、监控面板推荐配置

面板名称包含指标刷新频率
训练概览Training Loss, Validation Loss, Perplexity, Learning Rate每步
效率监控Throughput, Time per Step, GPU Utilization, MFU每步
资源监控GPU Memory, Power, Communication Overhead每步
稳定性监控Gradient Norm, Loss Spike, Activation Distribution, Clipping Ratio每步
分布式监控各节点Loss, 通信时间, 负载均衡每步

七、异常诊断速查表

1. Loss不下降

  • 可能原因: 学习率过小、数据质量问题、模型初始化问题、梯度消失
  • 排查方法: 检查学习率、数据输入、梯度范数、激活值分布
  • 解决方案: 增大学习率、清洗数据、更换初始化、使用残差连接

2. Loss爆炸

  • 可能原因: 学习率过大、异常样本、梯度爆炸、数值溢出
  • 排查方法: 检查学习率、梯度范数、输入数据
  • 解决方案: 降低学习率、梯度裁剪、混合精度、过滤异常数据

3. Validation Loss上升

  • 可能原因: 过拟合、训练/验证数据分布不一致
  • 排查方法: 对比loss曲线、检查数据分布
  • 解决方案: 增加正则化、早停、数据增强、增加训练数据

4. GPU利用率低

  • 可能原因: 数据加载瓶颈、CPU预处理慢、通信等待、batch size小
  • 排查方法: 分析时间线、检查dataloader、检查通信
  • 解决方案: 增加workers、pin_memory、优化通信、增大batch size

5. OOM (显存溢出)

  • 可能原因: batch size过大、序列过长、激活值过多、模型过大
  • 排查方法: 监控显存、分析占用构成
  • 解决方案: 减小batch size、梯度累积、激活检查点、模型并行

6. 训练速度突然下降

  • 可能原因: checkpoint保存、日志写入、数据读取异常、硬件降频
  • 排查方法: 检查系统日志、监控I/O、检查温度
  • 解决方案: 异步保存、优化日志、检查存储、改善散热

附录:常用监控工具

工具用途特点
TensorBoard训练可视化官方推荐,功能全面
Weights & Biases (W&B)实验追踪云端协作,对比方便
MLflow实验管理开源,可自托管
NVIDIA NsightGPU性能分析深度分析,专业级
PyTorch ProfilerPyTorch性能分析集成方便,开销小
nvidia-smiGPU实时监控命令行,轻量

文档生成时间: 2026-05-25