Training

Pre-training + Mid-training + Post-training 全流程解析

Training

大语言模型训练全流程:Pre-training → Mid-training → Post-training

Pre-training

预训练是 LLM 训练的第一阶段,通过海量无标注文本数据让模型学习语言规律和世界知识。模型在大量语料上进行自监督学习(如 Next Token Prediction),产出一个"什么都知道一点、但什么都不太好用"的基座模型。

Pre-training

系统学习预训练阶段的关键技术与方法,包括 tokenization、BPE 算法等基础知识。

Mid-training

训练与领域适应是连接预训练与后训练的中间阶段。在预训练完成后,通过持续训练(Continue Training)在特定领域数据上进一步优化模型,使其在特定领域(如代码、数学、科学)表现更好。Mid-training 通常使用比预训练更小但更高质量的数据集。

相关技术包括:领域自适应预训练(Domain-Adaptive Pretraining)、任务导向的持续训练等。这一阶段在 DeepSeek、Codex 等专业模型中尤为关键。

Post-training

后训练是将基座模型"精装修"为可用产品的关键阶段,涵盖监督微调(SFT)、偏好优化(RLHF/DPO)和强化学习训练(PPO/GRPO)等核心技术。

Post-Training 全景指南

从 RLHF 到 GRPO 再到 Agentic RL,系统梳理后训练的核心方法和最新进展。

PEFT 详解

参数高效微调方法详解,包括 LoRA、QLoRA、Prefix Tuning、Prompt Tuning 等技术。

← 返回 AI