模型训练指标

大模型基础理论大模型文档模型微调

大模型训练关键指标参数文档

版本: v1.0
生成日期: 2026-05-25
说明: 本文档汇总了大语言模型（LLM）训练过程中的核心监控指标与关键参数，涵盖训练效率、模型质量、资源消耗等维度。

目录

一、训练效率指标

指标名称	说明	计算公式	正常范围	监控意义	优化建议
Throughput (吞吐量)	每秒处理的样本/token数	总样本数 / 训练总时间	视配置而定，追求最大化	训练效率核心指标	优化数据加载、混合精度、调整batch size
Time per Step	每步训练耗时	总时间 / 总步数	毫秒~秒级，越小越好	单次迭代效率	检查GPU利用率、减少数据传输
GPU利用率	GPU核心平均利用率	活跃计算时间 / 总时间 × 100%	80%-100%理想	检测计算瓶颈	多进程加载、pin_memory、优化通信
MFU (FLOPs利用率)	实际FLOPs/理论峰值	实际FLOPs / (峰值×GPU数×时间)	30%-60%良好，>60%优秀	硬件真实利用效率	算子融合、减少同步、高效注意力
收敛速度	达到目标性能所需步数	达到目标loss的steps数	与规模相关	影响训练成本	优化学习率调度、warmup

二、模型质量指标

指标名称	说明	计算公式	正常范围	监控意义	异常信号	优化建议
Training Loss	训练集平均损失	-Σ log P(y	x) / N	持续递减	基本学习信号	不下降、爆炸、震荡	调学习率、查数据、梯度裁剪
Validation Loss	验证集平均损失	同Training Loss	初期降，后期可能升	检测过拟合	val↑ train↓	正则化、早停、数据增强
Perplexity (PPL)	预测不确定性	exp(Loss)	视任务而定，越小越好	语言模型标准评估	—	同loss优化
Gradient Norm	梯度L2范数	√(Σ gᵢ²)	1.0-10.0	检测梯度爆炸/消失	>100或<0.001	梯度裁剪、调学习率
Learning Rate	当前学习率	调度策略决定	warmup后衰减	影响收敛	—	cosine decay + warmup
Token Accuracy	正确预测比例	正确数 / 总数	递增后平稳	直观预测能力	—	同loss优化

三、资源消耗指标

指标名称	说明	计算公式	正常范围	监控意义	优化建议
显存占用	GPU显存使用量	参数+梯度+优化器状态+激活值	<90%总显存	防止OOM	梯度累积、激活检查点、ZeRO
显存带宽利用率	实际/理论带宽	实际带宽 / 峰值带宽	越高越好	内存墙问题	FlashAttention、优化数据布局
功耗	加速器实时功耗	硬件读取(W)	接近TDP理想	成本和散热	优化计算效率、低精度训练
通信开销	参数同步时间占比	通信时间 / 总时间	<20%良好	分布式瓶颈	梯度压缩、重叠通信、优化拓扑

四、训练稳定性指标

指标名称	说明	检测方法	正常范围	监控意义	优化建议
Loss Spike	loss突然大幅上升	当前loss > 前步×3	尽量避免	训练不稳定信号	梯度裁剪、降学习率、查异常数据
梯度裁剪比例	被裁剪梯度占比	被裁剪数 / 总数	<1%正常，>5%关注	梯度爆炸频率	调整裁剪阈值、查数据分布
激活值分布	各层激活统计	逐层均值/方差/极值	均值≈0，方差适中	检测激活爆炸/消失	LayerNorm、合适初始化
权重更新比例	更新量/权重比值	‖Δw‖ / ‖w‖	0.001-0.1	学习率是否合适	调学习率、自适应优化器

五、关键超参数配置

参数名称	说明	常见设置	影响因素	调优建议
Batch Size	每步样本数	全局: 1M-4M tokens	显存、稳定性、泛化	梯度累积达到目标
Learning Rate	优化步长	1e-4 ~ 1e-5	收敛、性能、稳定性	配合warmup和decay
Warmup Steps	学习率预热步数	总步数1%-5%	初期稳定性	大模型需更长warmup
Weight Decay	L2正则化	0.01 ~ 0.1	防止过拟合	不对embedding/bias应用
Gradient Clipping	梯度上限	1.0	稳定性	大模型训练必备
Max Seq Length	最大序列长度	2K, 4K, 8K, 128K	显存、上下文能力	按任务需求设定
Precision	训练精度	bf16, fp16, fp8, fp32	显存、速度、稳定性	推荐bf16
Optimizer	优化器	AdamW, Lion, Sophia	收敛、内存	AdamW最常用
LR Scheduler	学习率调度	Cosine, Linear, WSD	收敛行为	Cosine最常用
Data Parallel	数据并行度	视GPU数	吞吐量、通信	与模型/流水线并行配合
Model Parallel	张量并行度	1, 2, 4, 8	单节点显存	通常≤8
Pipeline Parallel	流水线并行度	视层数	显存、气泡	interleaved schedule

六、监控面板推荐配置

面板名称	包含指标	刷新频率
训练概览	Training Loss, Validation Loss, Perplexity, Learning Rate	每步
效率监控	Throughput, Time per Step, GPU Utilization, MFU	每步
资源监控	GPU Memory, Power, Communication Overhead	每步
稳定性监控	Gradient Norm, Loss Spike, Activation Distribution, Clipping Ratio	每步
分布式监控	各节点Loss, 通信时间, 负载均衡	每步

七、异常诊断速查表

1. Loss不下降

可能原因: 学习率过小、数据质量问题、模型初始化问题、梯度消失
排查方法: 检查学习率、数据输入、梯度范数、激活值分布
解决方案: 增大学习率、清洗数据、更换初始化、使用残差连接

2. Loss爆炸

可能原因: 学习率过大、异常样本、梯度爆炸、数值溢出
排查方法: 检查学习率、梯度范数、输入数据
解决方案: 降低学习率、梯度裁剪、混合精度、过滤异常数据

3. Validation Loss上升

可能原因: 过拟合、训练/验证数据分布不一致
排查方法: 对比loss曲线、检查数据分布
解决方案: 增加正则化、早停、数据增强、增加训练数据

4. GPU利用率低

可能原因: 数据加载瓶颈、CPU预处理慢、通信等待、batch size小
排查方法: 分析时间线、检查dataloader、检查通信
解决方案: 增加workers、pin_memory、优化通信、增大batch size

5. OOM (显存溢出)

可能原因: batch size过大、序列过长、激活值过多、模型过大
排查方法: 监控显存、分析占用构成
解决方案: 减小batch size、梯度累积、激活检查点、模型并行

6. 训练速度突然下降

可能原因: checkpoint保存、日志写入、数据读取异常、硬件降频
排查方法: 检查系统日志、监控I/O、检查温度
解决方案: 异步保存、优化日志、检查存储、改善散热

附录：常用监控工具

工具	用途	特点
TensorBoard	训练可视化	官方推荐，功能全面
Weights & Biases (W&B)	实验追踪	云端协作，对比方便
MLflow	实验管理	开源，可自托管
NVIDIA Nsight	GPU性能分析	深度分析，专业级
PyTorch Profiler	PyTorch性能分析	集成方便，开销小
nvidia-smi	GPU实时监控	命令行，轻量

文档生成时间: 2026-05-25

标签：

大模型基础理论大模型文档模型微调