时序预测大模型读书笔记

TimesFM · Chronos-2 · Moirai 2.0

一、概述

本文档整理了三篇代表性的时序预测大模型(Time Series Foundation Models)论文,涵盖工业界和学术界的最新进展。这些模型的核心目标是:通过在大规模时序数据上预训练,实现对新数据集的零样本(zero-shot)预测,无需针对每个任务重新训练。

模型机构发布时间参数量架构
TimesFMGoogle2024200MDecoder-Only Transformer
Chronos-2Amazon2025120M / 710MEncoder-Only + Group Attention
Moirai 2.0Salesforce202511M-305MDecoder-Only Transformer

二、各模型详细介绍

1. TimesFM (Times Foundation Model)

Google 2024

核心贡献:证明仅用时序数据(而非LLM)训练的 decoder-only 模型可以达到优秀的零样本性能。

关键特点

  • 架构:Decoder-Only Transformer
  • 核心设计
    • Patching:将序列切分为非重叠 patch(输入 32,输出 128)
    • 输出 patch 更长:减少自回归步数,提升长序列预测效率
    • 随机掩码:训练时随机 mask 部分 patch,使模型适应任意上下文长度
  • 训练数据:1000 亿时间点,来源包括 Google Trends、Wiki Pageviews、合成数据
  • 损失函数:MSE(点预测)
TimesFM 架构

性能表现

  • Monash 基准(18 个数据集):零样本性能与有监督的 N-BEATS 相当
  • ETT 数据集:与 PatchTST 相当,优于其他长序列模型

局限

  • 仅支持点预测(不支持概率预测)
  • 不支持协变量

2. Chronos-2

AWS 2025

核心贡献:从单变量预测扩展到通用预测,支持单变量、多变量、协变量辅助预测。

关键特点

  • 架构:Encoder-Only Transformer(类似 T5)
  • 核心创新
    • Group Attention:在批次内按组 ID 聚合信息,实现上下文学习(ICL)
    • 组可以是:单序列、多元变量、目标+协变量
    • 时间注意力 + 群组注意力交替使用
  • 数据处理
    • 使用 sinh⁻¹ 变换进行鲁棒缩放
    • 添加时间索引和 mask 作为元特征
    • 输出 21 个分位数(含 0.01 和 0.99 极端分位数)
  • 训练策略:两阶段训练(上下文 2048 → 8192)
Chronos-2 架构

性能表现

  • fev-bench(100 个任务):胜率 90.7%,技能分数 47.3%,显著优于所有基线
  • 协变量任务上提升最大
  • 能源和零售领域案例研究表现优异

局限

  • 仅支持数值和分类协变量,不支持文本等多模态输入

3. Moirai 2.0

Salesforce 2025

核心贡献:从 Moirai 1.0 的 masked-encoder 重构为decoder-only架构,实现"少即是多"。

关键特点

  • 架构:Decoder-Only Transformer
  • 核心设计变更(相比 1.0):
    • 从 masked-encoder 改为 decoder-only → 数据利用效率更高
    • 多 patch 尺寸 → 单 patch 尺寸 → 简化实现、提升性能
    • 混合分布输出 → 分位数损失 → 更鲁棒
  • 多分位数解码:使用 beam search-like 的 expand-collapse 策略,在自回归解码中保持不确定性
  • 训练数据:3600 万条序列,2950 亿观测值(GIFT-Eval + Chronos-Mixup + KernelSynth + Salesforce 内部数据)
  • 推理优化:支持 KV Cache,长上下文下可提速 4-17 倍
Moirai 2.0 架构

性能表现

  • GIFT-Eval:排名第 5-6(MASE/CRPS)
  • 相比 Moirai-Large:30 倍更小,2 倍更快,性能更好
  • 效率对比:11M 激活参数 vs Chronos 46M

局限

  • 放弃了对多变量和协变量的原生支持

三、模型对比分析

3.1 架构对比

维度TimesFMChronos-2Moirai 2.0
架构类型Decoder-OnlyEncoder-OnlyDecoder-Only
Patching✅ 32→128✅ 支持✅ 单 patch
位置编码原始 Transformer PERoPE未详述
注意力机制因果自注意力Time + Group Attention因果自注意力

3.2 能力对比

能力TimesFMChronos-2Moirai 2.0
单变量预测
多变量预测
协变量支持✅(过去+未来)
概率预测❌(点预测)✅(21 分位数)✅(9 分位数)
零样本
微调

3.3 效率对比

模型参数量推理速度训练数据规模
TimesFM200M较快1000 亿点
Chronos-2120M300 序列/秒(A10G)真实 + 合成
Moirai 2.011M-305M2× Moirai-Large2950 亿点

3.4 设计哲学对比

模型核心哲学主要权衡
TimesFM少即是多,decoder-only无概率预测、无协变量
Chronos-2通用性优先,支持协变量复杂度较高
Moirai 2.0简化胜过复杂放弃多变量和协变量