时序预测大模型读书笔记

一、概述

本文档整理了三篇代表性的时序预测大模型（Time Series Foundation Models）论文，涵盖工业界和学术界的最新进展。这些模型的核心目标是：通过在大规模时序数据上预训练，实现对新数据集的零样本（zero-shot）预测，无需针对每个任务重新训练。

模型	机构	发布时间	参数量	架构
TimesFM	Google	2024	200M	Decoder-Only Transformer
Chronos-2	Amazon	2025	120M / 710M	Encoder-Only + Group Attention
Moirai 2.0	Salesforce	2025	11M-305M	Decoder-Only Transformer

二、各模型详细介绍

1. TimesFM (Times Foundation Model)

Google 2024

核心贡献：证明仅用时序数据（而非LLM）训练的 decoder-only 模型可以达到优秀的零样本性能。

关键特点

架构：Decoder-Only Transformer
核心设计：
- Patching：将序列切分为非重叠 patch（输入 32，输出 128）
- 输出 patch 更长：减少自回归步数，提升长序列预测效率
- 随机掩码：训练时随机 mask 部分 patch，使模型适应任意上下文长度
训练数据：1000 亿时间点，来源包括 Google Trends、Wiki Pageviews、合成数据
损失函数：MSE（点预测）

性能表现

Monash 基准（18 个数据集）：零样本性能与有监督的 N-BEATS 相当
ETT 数据集：与 PatchTST 相当，优于其他长序列模型

局限

仅支持点预测（不支持概率预测）
不支持协变量

2. Chronos-2

AWS 2025

核心贡献：从单变量预测扩展到通用预测，支持单变量、多变量、协变量辅助预测。

关键特点

架构：Encoder-Only Transformer（类似 T5）
核心创新：
- Group Attention：在批次内按组 ID 聚合信息，实现上下文学习（ICL）
- 组可以是：单序列、多元变量、目标+协变量
- 时间注意力 + 群组注意力交替使用
数据处理：
- 使用 sinh⁻¹ 变换进行鲁棒缩放
- 添加时间索引和 mask 作为元特征
- 输出 21 个分位数（含 0.01 和 0.99 极端分位数）
训练策略：两阶段训练（上下文 2048 → 8192）

性能表现

fev-bench（100 个任务）：胜率 90.7%，技能分数 47.3%，显著优于所有基线
协变量任务上提升最大
能源和零售领域案例研究表现优异

局限

仅支持数值和分类协变量，不支持文本等多模态输入

3. Moirai 2.0

Salesforce 2025

核心贡献：从 Moirai 1.0 的 masked-encoder 重构为decoder-only架构，实现"少即是多"。

关键特点

架构：Decoder-Only Transformer
核心设计变更（相比 1.0）：
- 从 masked-encoder 改为 decoder-only → 数据利用效率更高
- 多 patch 尺寸 → 单 patch 尺寸 → 简化实现、提升性能
- 混合分布输出 → 分位数损失 → 更鲁棒
多分位数解码：使用 beam search-like 的 expand-collapse 策略，在自回归解码中保持不确定性
训练数据：3600 万条序列，2950 亿观测值（GIFT-Eval + Chronos-Mixup + KernelSynth + Salesforce 内部数据）
推理优化：支持 KV Cache，长上下文下可提速 4-17 倍

性能表现

GIFT-Eval：排名第 5-6（MASE/CRPS）
相比 Moirai-Large：30 倍更小，2 倍更快，性能更好
效率对比：11M 激活参数 vs Chronos 46M

局限

放弃了对多变量和协变量的原生支持

三、模型对比分析

3.1 架构对比

维度	TimesFM	Chronos-2	Moirai 2.0
架构类型	Decoder-Only	Encoder-Only	Decoder-Only
Patching	✅ 32→128	✅ 支持	✅ 单 patch
位置编码	原始 Transformer PE	RoPE	未详述
注意力机制	因果自注意力	Time + Group Attention	因果自注意力

3.2 能力对比

能力	TimesFM	Chronos-2	Moirai 2.0
单变量预测	✅	✅	✅
多变量预测	❌	✅	❌
协变量支持	❌	✅（过去+未来）	❌
概率预测	❌（点预测）	✅（21 分位数）	✅（9 分位数）
零样本	✅	✅	✅
微调	✅	✅	✅

3.3 效率对比

模型	参数量	推理速度	训练数据规模
TimesFM	200M	较快	1000 亿点
Chronos-2	120M	300 序列/秒（A10G）	真实 + 合成
Moirai 2.0	11M-305M	2× Moirai-Large	2950 亿点

3.4 设计哲学对比

模型	核心哲学	主要权衡
TimesFM	少即是多，decoder-only	无概率预测、无协变量
Chronos-2	通用性优先，支持协变量	复杂度较高
Moirai 2.0	简化胜过复杂	放弃多变量和协变量

四、关键趋势总结

从 Encoder 到 Decoder：Moirai 2.0 和 TimesFM 都验证了 decoder-only 架构在时序预测中的优越性（数据效率更高、支持 KV Cache）。

从单变量到通用：Chronos-2 代表了向多变量和协变量支持的发展方向，这是实际应用的关键需求。

Patching 成为标准：所有模型都采用了 patching 技术，将时序数据转化为类似 token 的形式。

合成数据的重要性：所有模型都依赖合成数据来增强训练数据的多样性和覆盖度。

效率与能力的平衡：
- Moirai 2.0：牺牲多变量能力换取极致的效率
- Chronos-2：保留通用能力但模型更复杂
- TimesFM：在效率和能力之间取得较好平衡，但缺失概率预测和协变量支持

📑 页面目录

一、概述

二、各模型详细介绍

1. TimesFM (Times Foundation Model)

关键特点

性能表现

局限

2. Chronos-2

关键特点

性能表现

局限

3. Moirai 2.0

关键特点

性能表现

局限

三、模型对比分析

3.1 架构对比

3.2 能力对比

3.3 效率对比

3.4 设计哲学对比

四、关键趋势总结