Training
Pre-training + Mid-training + Post-training 全流程解析
Training
大语言模型训练全流程:Pre-training → Mid-training → Post-training
Pre-training
预训练是 LLM 训练的第一阶段,通过海量无标注文本数据让模型学习语言规律和世界知识。模型在大量语料上进行自监督学习(如 Next Token Prediction),产出一个"什么都知道一点、但什么都不太好用"的基座模型。
Mid-training
训练与领域适应是连接预训练与后训练的中间阶段。在预训练完成后,通过持续训练(Continue Training)在特定领域数据上进一步优化模型,使其在特定领域(如代码、数学、科学)表现更好。Mid-training 通常使用比预训练更小但更高质量的数据集。
相关技术包括:领域自适应预训练(Domain-Adaptive Pretraining)、任务导向的持续训练等。这一阶段在 DeepSeek、Codex 等专业模型中尤为关键。
Post-training
后训练是将基座模型"精装修"为可用产品的关键阶段,涵盖监督微调(SFT)、偏好优化(RLHF/DPO)和强化学习训练(PPO/GRPO)等核心技术。
Post-Training 全景指南
从 RLHF 到 GRPO 再到 Agentic RL,系统梳理后训练的核心方法和最新进展。
PEFT 详解
参数高效微调方法详解,包括 LoRA、QLoRA、Prefix Tuning、Prompt Tuning 等技术。