大模型训练关键指标参数文档
版本: v1.0
生成日期: 2026-05-25
说明: 本文档汇总了大语言模型(LLM)训练过程中的核心监控指标与关键参数,涵盖训练效率、模型质量、资源消耗等维度。
目录
- 训练效率指标
- 模型质量指标
- 资源消耗指标
- 训练稳定性指标
- 关键超参数配置
- 监控面板推荐配置
- 异常诊断速查表
一、训练效率指标
| 指标名称 | 说明 | 计算公式 | 正常范围 | 监控意义 | 优化建议 |
|---|
| Throughput (吞吐量) | 每秒处理的样本/token数 | 总样本数 / 训练总时间 | 视配置而定,追求最大化 | 训练效率核心指标 | 优化数据加载、混合精度、调整batch size |
| Time per Step | 每步训练耗时 | 总时间 / 总步数 | 毫秒~秒级,越小越好 | 单次迭代效率 | 检查GPU利用率、减少数据传输 |
| GPU利用率 | GPU核心平均利用率 | 活跃计算时间 / 总时间 × 100% | 80%-100%理想 | 检测计算瓶颈 | 多进程加载、pin_memory、优化通信 |
| MFU (FLOPs利用率) | 实际FLOPs/理论峰值 | 实际FLOPs / (峰值×GPU数×时间) | 30%-60%良好,>60%优秀 | 硬件真实利用效率 | 算子融合、减少同步、高效注意力 |
| 收敛速度 | 达到目标性能所需步数 | 达到目标loss的steps数 | 与规模相关 | 影响训练成本 | 优化学习率调度、warmup |
二、模型质量指标
| 指标名称 | 说明 | 计算公式 | 正常范围 | 监控意义 | 异常信号 | 优化建议 |
|---|
| Training Loss | 训练集平均损失 | -Σ log P(y | x) / N | 持续递减 | 基本学习信号 | 不下降、爆炸、震荡 | 调学习率、查数据、梯度裁剪 |
| Validation Loss | 验证集平均损失 | 同Training Loss | 初期降,后期可能升 | 检测过拟合 | val↑ train↓ | 正则化、早停、数据增强 |
| Perplexity (PPL) | 预测不确定性 | exp(Loss) | 视任务而定,越小越好 | 语言模型标准评估 | — | 同loss优化 |
| Gradient Norm | 梯度L2范数 | √(Σ gᵢ²) | 1.0-10.0 | 检测梯度爆炸/消失 | >100或<0.001 | 梯度裁剪、调学习率 |
| Learning Rate | 当前学习率 | 调度策略决定 | warmup后衰减 | 影响收敛 | — | cosine decay + warmup |
| Token Accuracy | 正确预测比例 | 正确数 / 总数 | 递增后平稳 | 直观预测能力 | — | 同loss优化 |
三、资源消耗指标
| 指标名称 | 说明 | 计算公式 | 正常范围 | 监控意义 | 优化建议 |
|---|
| 显存占用 | GPU显存使用量 | 参数+梯度+优化器状态+激活值 | <90%总显存 | 防止OOM | 梯度累积、激活检查点、ZeRO |
| 显存带宽利用率 | 实际/理论带宽 | 实际带宽 / 峰值带宽 | 越高越好 | 内存墙问题 | FlashAttention、优化数据布局 |
| 功耗 | 加速器实时功耗 | 硬件读取(W) | 接近TDP理想 | 成本和散热 | 优化计算效率、低精度训练 |
| 通信开销 | 参数同步时间占比 | 通信时间 / 总时间 | <20%良好 | 分布式瓶颈 | 梯度压缩、重叠通信、优化拓扑 |
四、训练稳定性指标
| 指标名称 | 说明 | 检测方法 | 正常范围 | 监控意义 | 优化建议 |
|---|
| Loss Spike | loss突然大幅上升 | 当前loss > 前步×3 | 尽量避免 | 训练不稳定信号 | 梯度裁剪、降学习率、查异常数据 |
| 梯度裁剪比例 | 被裁剪梯度占比 | 被裁剪数 / 总数 | <1%正常,>5%关注 | 梯度爆炸频率 | 调整裁剪阈值、查数据分布 |
| 激活值分布 | 各层激活统计 | 逐层均值/方差/极值 | 均值≈0,方差适中 | 检测激活爆炸/消失 | LayerNorm、合适初始化 |
| 权重更新比例 | 更新量/权重比值 | ‖Δw‖ / ‖w‖ | 0.001-0.1 | 学习率是否合适 | 调学习率、自适应优化器 |
五、关键超参数配置
| 参数名称 | 说明 | 常见设置 | 影响因素 | 调优建议 |
|---|
| Batch Size | 每步样本数 | 全局: 1M-4M tokens | 显存、稳定性、泛化 | 梯度累积达到目标 |
| Learning Rate | 优化步长 | 1e-4 ~ 1e-5 | 收敛、性能、稳定性 | 配合warmup和decay |
| Warmup Steps | 学习率预热步数 | 总步数1%-5% | 初期稳定性 | 大模型需更长warmup |
| Weight Decay | L2正则化 | 0.01 ~ 0.1 | 防止过拟合 | 不对embedding/bias应用 |
| Gradient Clipping | 梯度上限 | 1.0 | 稳定性 | 大模型训练必备 |
| Max Seq Length | 最大序列长度 | 2K, 4K, 8K, 128K | 显存、上下文能力 | 按任务需求设定 |
| Precision | 训练精度 | bf16, fp16, fp8, fp32 | 显存、速度、稳定性 | 推荐bf16 |
| Optimizer | 优化器 | AdamW, Lion, Sophia | 收敛、内存 | AdamW最常用 |
| LR Scheduler | 学习率调度 | Cosine, Linear, WSD | 收敛行为 | Cosine最常用 |
| Data Parallel | 数据并行度 | 视GPU数 | 吞吐量、通信 | 与模型/流水线并行配合 |
| Model Parallel | 张量并行度 | 1, 2, 4, 8 | 单节点显存 | 通常≤8 |
| Pipeline Parallel | 流水线并行度 | 视层数 | 显存、气泡 | interleaved schedule |
六、监控面板推荐配置
| 面板名称 | 包含指标 | 刷新频率 |
|---|
| 训练概览 | Training Loss, Validation Loss, Perplexity, Learning Rate | 每步 |
| 效率监控 | Throughput, Time per Step, GPU Utilization, MFU | 每步 |
| 资源监控 | GPU Memory, Power, Communication Overhead | 每步 |
| 稳定性监控 | Gradient Norm, Loss Spike, Activation Distribution, Clipping Ratio | 每步 |
| 分布式监控 | 各节点Loss, 通信时间, 负载均衡 | 每步 |
七、异常诊断速查表
1. Loss不下降
- 可能原因: 学习率过小、数据质量问题、模型初始化问题、梯度消失
- 排查方法: 检查学习率、数据输入、梯度范数、激活值分布
- 解决方案: 增大学习率、清洗数据、更换初始化、使用残差连接
2. Loss爆炸
- 可能原因: 学习率过大、异常样本、梯度爆炸、数值溢出
- 排查方法: 检查学习率、梯度范数、输入数据
- 解决方案: 降低学习率、梯度裁剪、混合精度、过滤异常数据
3. Validation Loss上升
- 可能原因: 过拟合、训练/验证数据分布不一致
- 排查方法: 对比loss曲线、检查数据分布
- 解决方案: 增加正则化、早停、数据增强、增加训练数据
4. GPU利用率低
- 可能原因: 数据加载瓶颈、CPU预处理慢、通信等待、batch size小
- 排查方法: 分析时间线、检查dataloader、检查通信
- 解决方案: 增加workers、pin_memory、优化通信、增大batch size
5. OOM (显存溢出)
- 可能原因: batch size过大、序列过长、激活值过多、模型过大
- 排查方法: 监控显存、分析占用构成
- 解决方案: 减小batch size、梯度累积、激活检查点、模型并行
6. 训练速度突然下降
- 可能原因: checkpoint保存、日志写入、数据读取异常、硬件降频
- 排查方法: 检查系统日志、监控I/O、检查温度
- 解决方案: 异步保存、优化日志、检查存储、改善散热
附录:常用监控工具
| 工具 | 用途 | 特点 |
|---|
| TensorBoard | 训练可视化 | 官方推荐,功能全面 |
| Weights & Biases (W&B) | 实验追踪 | 云端协作,对比方便 |
| MLflow | 实验管理 | 开源,可自托管 |
| NVIDIA Nsight | GPU性能分析 | 深度分析,专业级 |
| PyTorch Profiler | PyTorch性能分析 | 集成方便,开销小 |
| nvidia-smi | GPU实时监控 | 命令行,轻量 |
文档生成时间: 2026-05-25