Training

大语言模型训练全流程：Pre-training → Mid-training → Post-training

预训练是 LLM 训练的第一阶段，通过海量无标注文本数据让模型学习语言规律和世界知识。模型在大量语料上进行自监督学习（如 Next Token Prediction），产出一个"什么都知道一点、但什么都不太好用"的基座模型。

系统学习预训练阶段的关键技术与方法，包括 tokenization、BPE 算法等基础知识。

训练与领域适应是连接预训练与后训练的中间阶段。在预训练完成后，通过持续训练（Continue Training）在特定领域数据上进一步优化模型，使其在特定领域（如代码、数学、科学）表现更好。Mid-training 通常使用比预训练更小但更高质量的数据集。

相关技术包括：领域自适应预训练（Domain-Adaptive Pretraining）、任务导向的持续训练等。这一阶段在 DeepSeek、Codex 等专业模型中尤为关键。

后训练是将基座模型"精装修"为可用产品的关键阶段，涵盖监督微调（SFT）、偏好优化（RLHF/DPO）和强化学习训练（PPO/GRPO）等核心技术。

从 RLHF 到 GRPO 再到 Agentic RL，系统梳理后训练的核心方法和最新进展。

参数高效微调方法详解，包括 LoRA、QLoRA、Prefix Tuning、Prompt Tuning 等技术。

← 返回 AI