《From Sequential to Recursive: Enhancing Decision-Focused Learning with Bidirectional Feedback》读书笔记

📄 论文信息

标题：From Sequential to Recursive: Enhancing Decision-Focused Learning with Bidirectional Feedback
作者：Xinyu Wang, Jinxiao Du, Yiyang Peng, Wei Ma (The Hong Kong Polytechnic University)
核心贡献：提出递归决策聚焦学习（R-DFL）框架，在预测与优化之间引入反馈回路，并给出两种梯度计算方法（显式展开与隐式微分）。

1 动机或问题背景

1.1 传统方法的局限

现实世界中的决策问题（如车辆路径规划、库存管理、网约车匹配）通常面临不确定性。传统的”预测后优化”（Predict-then-Optimize, PTO）框架采用两阶段方式：

用机器学习模型预测不确定参数
基于预测结果求解优化问题

核心问题：PTO 最小化的是预测误差，而非决策损失。预测误差小不一定带来决策质量高。

PTO 流程（两阶段分离）:
┌─────────┐     ┌─────────┐     ┌─────────┐
│ 历史数据 │────→│ ML预测  │────→│ 优化求解 │────→ 决策
└─────────┘     └─────────┘     └─────────┘
                 ↑               ↑
            最小化预测误差   但决策可能次优

1.2 决策聚焦学习的出现

决策聚焦学习（Decision-Focused Learning, DFL）将优化模块作为可微分层嵌入神经网络，实现端到端训练，直接优化决策质量。

S-DFL 流程（训练时闭环）:
┌─────────┐     ┌─────────┐     ┌─────────┐     ┌─────┐
│ 特征 v  │────→│ 预测 F  │────→│ 优化 G  │────→│ 损失 │
└─────────┘     └─────────┘     └─────────┘     └─────┘
                    ↑                 ↑
                    └─────── 梯度 ────┘
                 (训练时有梯度反馈，但推理时仍为开环)

1.3 现有 DFL 的根本缺陷

现有 DFL（论文称其为 Sequential DFL, S-DFL）仍保持顺序结构：

单向假设：预测指导优化，但优化结果不影响后续预测

这在复杂交互场景中失效。以网约车匹配为例：

平台提出匹配方案
司机/乘客的接受/拒绝决策提供了即时反馈
这些反馈本应反作用于后续匹配决策

S-DFL 在网约车匹配中的问题:
┌────────────────────────────────────────────────────────────┐
│  S-DFL 做法:                                                │
│  ┌──────┐    ┌──────┐    ┌──────┐    ┌──────────┐          │
│  │ 特征 │───→│预测  │───→│优化  │───→│ 执行匹配 │──→ 结束  │
│  └──────┘    └──────┘    └──────┘    └──────────┘          │
│                              ↑                              │
│                     (不接收用户拒绝的反馈)                    │
│                                                             │
│  问题：司机拒绝匹配的信息丢失，无法改进后续决策                 │
└────────────────────────────────────────────────────────────┘

1.4 研究问题

如何建模双向预测-优化系统？
在循环结构中如何实现梯度传播？

2 解决方法

2.1 R-DFL 框架概述

论文提出递归决策聚焦学习（Recursive Decision-Focused Learning, R-DFL），核心创新是引入从优化返回预测的反馈回路。

架构对比（论文图1）

╔═══════════════════════════════════════════════════════════════════════════╗
║                        图1：S-DFL vs R-DFL 架构对比                        ║
╠═══════════════════════════════════════════════════════════════════════════╣
║                                                                           ║
║  S-DFL (顺序结构):                                                        ║
║  ┌─────────┐    ┌─────────┐    ┌─────────┐    ┌─────────┐               ║
║  │ 特征 v  │───→│ 预测 Fθ │───→│   ĉ     │───→│ 优化 G  │───→ 决策 x     ║
║  └─────────┘    └─────────┘    └─────────┘    └─────────┘               ║
║                   (单向流动，无反馈回路)                                   ║
║                                                                           ║
║  ════════════════════════════════════════════════════════════════════════ ║
║                                                                           ║
║  R-DFL (递归结构):                                                        ║
║                              ┌─────────────────────────┐                  ║
║                              │   反馈回路 (决策反馈)     │                  ║
║                              ↓                         │                  ║
║  ┌─────────┐    ┌─────────┐    ┌─────────┐    ┌─────────┐               ║
║  │ 特征 v  │───→│ 预测 Fθ │───→│   ĉ     │───→│ 优化 G  │───→ 决策 x     ║
║  └─────────┘    └─────────┘    └─────────┘    └─────────┘               ║
║                    ↑                            │                        ║
║                    └────────────────────────────┘                        ║
║                    (x 反馈回预测模型，形成闭环)                            ║
║                                                                           ║
║  R-DFL 预测模型输入:  ĉ = Fθ(x, v)   ← 同时依赖特征和上轮决策              ║
║                                                                           ║
╚═══════════════════════════════════════════════════════════════════════════╝

框架组成

模块	功能	数学表达
预测模型 (_)	映射特征+决策 → 预测参数	( = _(x, v))
优化模型 ()	求解最优决策	(x^*() = _{x } g(x; ))

S-DFL vs R-DFL 核心差异

维度	S-DFL	R-DFL
信息流向	单向：预测 → 优化	双向：预测 ⇄ 优化
预测模型输入	仅外部特征 (v)	外部特征 (v) + 上一轮决策 (x)
计算图结构	有向无环图 (DAG)	有向循环图 (DCG)
推理时反馈	无	有（决策结果持续修正预测）
适用场景	静态决策	闭环、交互式决策

2.2 梯度计算挑战

循环结构破坏了传统反向传播的 DAG 假设，需要特殊方法。

梯度传播问题示意:
┌─────────────────────────────────────────────────────────────────────────┐
│                         循环结构导致的梯度问题                            │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│  R-DFL 计算图:                                                          │
│                                                                         │
│      θ ──→ Fθ ──→ ĉ ──→ G ──→ x ──→ Loss                                │
│                ↑                       │                                │
│                └───────────────────────┘                                │
│                        循环依赖!                                         │
│                                                                         │
│  传统反向传播: 要求有向无环图 (DAG)                                       │
│  问题: 循环图无法直接应用链式法则                                         │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

2.3 方法一：显式展开（Explicit Unrolling）

核心思想：将循环展开为 (K) 个顺序层，每层执行一次”预测-优化”。

数学形式： [ i = (x_{i-1}, v), x_i = (_i), i = 1,2,…,K ]

梯度计算（论文定理1）： [ = {i=1}^K ( ( {j=i+1}^K J_{}|{x_{j-1}} ) ) ]

2.4 方法二：隐式微分（Implicit Differentiation）

核心思想：将系统视为不动点问题，直接求解平衡点。

不动点条件： [ x^* = (_(x^*, v)) = _(x^*, v) ]

梯度计算（论文定理2，通过隐函数定理）： [ = (I - J_{}|{x^*}){-1} ]

2.5 两种方法对比总结

╔═══════════════════════════════════════════════════════════════════════════╗
║                   显式展开 vs 隐式微分 对比                                ║
╠═══════════════════════════════════════════════════════════════════════════╣
║                                                                           ║
║  ┌─────────────────┬─────────────────────────┬─────────────────────────┐  ║
║  │      维度        │     显式展开             │      隐式微分           │  ║
║  ├─────────────────┼─────────────────────────┼─────────────────────────┤  ║
║  │ 前向方式         │ 固定K层展开              │ 不动点迭代直到收敛       │  ║
║  ├─────────────────┼─────────────────────────┼─────────────────────────┤  ║
║  │ 反向方式         │ 通过所有层反向传播        │ 在平衡点处一次性计算     │  ║
║  ├─────────────────┼─────────────────────────┼─────────────────────────┤  ║
║  │ 时间复杂度       │ O(K)                    │ O(1) (与K无关)          │  ║
║  ├─────────────────┼─────────────────────────┼─────────────────────────┤  ║
║  │ 实现复杂度       │ 低 (自动微分)            │ 高 (需手动推导梯度)      │  ║
║  ├─────────────────┼─────────────────────────┼─────────────────────────┤  ║
║  │ 计算效率         │ 低 (大规模问题慢)        │ 高 (快约1.5倍)          │  ║
║  ├─────────────────┼─────────────────────────┼─────────────────────────┤  ║
║  │ 精度             │ 高                       │ 高 (理论上等价)          │  ║
║  └─────────────────┴─────────────────────────┴─────────────────────────┘  ║
║                                                                           ║
╚═══════════════════════════════════════════════════════════════════════════╝

2.6 理论等价性（论文定理3）

当展开层数 (K ) 且谱半径 ((J_{}|{x^*}) < 1) 时，两种方法的梯度等价：

[ {K } ^{}{} = ^{}_{} ]

梯度等价性证明思路:
┌─────────────────────────────────────────────────────────────────────────┐
│  显式展开梯度 (K层):                                                     │
│  ∂x_K/∂θ = Σ_{i=1}^K J^{K-i} · (∂Φ/∂θ)                                  │
│                              ↓                                          │
│                    当 K → ∞, 且 ρ(J) < 1                                 │
│                              ↓                                          │
│                     Σ_{i=0}^∞ J^i = (I - J)^{-1}                        │
│                              ↓                                          │
│  隐式微分梯度:                                                           │
│  ∂x*/∂θ = (I - J)^{-1} · (∂Φ/∂θ)                                        │
│                                                                         │
│  ∴ 两种方法梯度等价                                                       │
└─────────────────────────────────────────────────────────────────────────┘

3 效果

3.1 实验设置

问题	数据集	规模	决策变量	约束数	Jacobian 维度
多产品报童问题	合成数据	Small	10	32	32×32
		Mid	50	152	152×152
		Large	100	302	302×302
二分图匹配	NYC TLC	Small	16	57	57×57
		Mid	225	706	706×706
		Large	900	2761	2761×2761

基线方法： - PTO：预测+优化分离 - S-DFL：顺序 DFL - R-DFL-U：显式展开 - R-DFL-I：隐式微分

3.2 主要结果（论文表1）

╔══════════════════════════════════════════════════════════════════════════════════════════════════════════════════╗
║                    表1：报童问题和二分图匹配问题上的性能对比                                                       ║
╠══════════════════════════════════════════════════════════════════════════════════════════════════════════════════╣
║                                                                                                                  ║
║  ┌─────────────────────────────────────────┬─────────────────────────────────────────┐                          ║
║  │           报童问题 (Newsvendor)           │        二分图匹配 (Bipartite Matching)     │                          ║
║  ├──────────┬──────────┬──────────┬─────────┼──────────┬──────────┬──────────┬─────────┤                          ║
║  │  规模    │ Small    │  Mid     │ Large   │  Small   │   Mid    │  Large   │         │                          ║
║  │(决策变量)│   10     │   50     │  100    │   16     │   225    │   900    │         │                          ║
║  ├──────────┼──────────┼──────────┼─────────┼──────────┼──────────┼──────────┼─────────┤                          ║
║  │  PTO     │ 12.77    │ 12.75    │ 12.68   │  0.412   │    -     │    -     │  RMSE   │                          ║
║  ├──────────┼──────────┼──────────┼─────────┼──────────┼──────────┼──────────┼─────────┤                          ║
║  │  S-DFL   │ 12.25    │ 12.54    │ 12.65   │  0.408   │    -     │    -     │  (↓)    │                          ║
║  ├──────────┼──────────┼──────────┼─────────┼──────────┼──────────┼──────────┼─────────┤                          ║
║  │R-DFL-U   │ 8.98     │ 9.17     │ 9.34    │  0.396   │    -     │    -     │  RMSE   │                          ║
║  │          │ (135s)   │ (369s)   │ (422s)  │  (65s)   │          │          │  (时间)  │                          ║
║  ├──────────┼──────────┼──────────┼─────────┼──────────┼──────────┼──────────┼─────────┤                          ║
║  │R-DFL-I   │ 8.83     │ 9.11     │ 9.33    │  0.398   │    -     │    -     │  RMSE   │                          ║
║  │          │ (118s)   │ (254s)   │ (369s)  │  (26s)   │          │          │  (时间)  │                          ║
║  └──────────┴──────────┴──────────┴─────────┴──────────┴──────────┴──────────┴─────────┘                          ║
║                                                                                                                  ║
║  关键发现:                                                                                                        ║
║  1. R-DFL 在所有数据集上 RMSE 显著低于 S-DFL 和 PTO (↓约30%)                                                       ║
║  2. 隐式方法 (R-DFL-I) 比显式方法 (R-DFL-U) 快约 1.5 倍 (大规模问题: 369s vs 422s; 26s vs 65s)                    ║
║  3. 两种方法精度相当 (RMSE 差异 < 0.03)                                                                           ║
║                                                                                                                  ║
╚══════════════════════════════════════════════════════════════════════════════════════════════════════════════════╝

Table 1: 报童问题和二分图匹配问题上的性能对比 — 表1：报童问题（左）和二分图匹配问题（右）上的性能对比

3.3 精度对比（论文图3：QQ图）

╔═══════════════════════════════════════════════════════════════════════════╗
║              图3：R-DFL-U 与 R-DFL-I 决策分布 QQ 图对比                     ║
╠═══════════════════════════════════════════════════════════════════════════╣
║                                                                           ║
║  报童问题 - Small (n=10)        报童问题 - Mid (n=50)      报童问题 - Large (n=100)
║                                                                           ║
║    R-DFL-I 分位数                 R-DFL-I 分位数               R-DFL-I 分位数
║       ↑                              ↑                            ↑
║    10 │                   ↗         10 │                ↗       10 │            ↗
║       │                ↗              │             ↗             │         ↗
║     5 │             ↗                 │          ↗                │      ↗
║       │          ↗                    │       ↗                   │   ↗
║     0 ├─────→                   0 ├─────→                  0 ├─────→
║       0    5    10                 0    5    10                0    5    10
║                R-DFL-U 分位数                  R-DFL-U 分位数                 R-DFL-U 分位数
║                                                                           ║
║      (完美对齐)                     (轻微偏差)                    (尾部偏差)
║                                                                           ║
║  观察：                                                                   ║
║  • 小规模：两种方法决策分布几乎完全一致                                     ║
║  • 中规模：轻微偏差，整体仍保持高度一致                                     ║
║  • 大规模：尾部出现微小偏差，但总体分布仍相似                               ║
║  → 结论：两种方法在不同规模下都产生一致的决策结果                           ║
║                                                                           ║
╚═══════════════════════════════════════════════════════════════════════════╝

3.4 敏感性分析（论文图4：不同展开层数的影响）

╔═══════════════════════════════════════════════════════════════════════════╗
║              图4：展开层数敏感性分析 (层数 = 5,10,15,20,25)                ║
╠═══════════════════════════════════════════════════════════════════════════╣
║                                                                           ║
║  精度 (RMSE)                         训练时间 (秒)                         ║
║                                                                           ║
║    9.6│                              500 ┤                               ║
║        │    ┌─── R-DFL-U                 │        ╱─ R-DFL-U              ║
║    9.4│   ╱│   R-DFL-I               400 ┤     ╱                          ║
║        │  ╱ │                            │    ╱                           ║
║    9.2│ ╱  │                            │  ╱                             ║
║        │╱  │                            │ ╱                              ║
║    9.0│───┘│                        200 ┤╱                               ║
║        │    │                            │                                ║
║    8.8│    │                         100 ┤───── R-DFL-I                  ║
║        │    │                            │                                ║
║        └────┴────┴────┴────┴──→           └────┴────┴────┴────┴──→        ║
║         5   10   15   20   25              5   10   15   20   25         ║
║               展开层数 (K)                         展开层数 (K)             ║
║                                                                           ║
║  关键观察:                                                                 ║
║  ┌─────────────────────────────────────────────────────────────────────┐ ║
║  │ 1. 精度随层数增加提升有限（边际效益递减）                              │ ║
║  │ 2. R-DFL-U 训练时间随层数线性增长                                     │ ║
║  │ 3. R-DFL-I 训练时间几乎恒定（与层数无关）                              │ ║
║  │ 4. 层数较大时，R-DFL-I 的效率和精度优势更明显                          │ ║
║  └─────────────────────────────────────────────────────────────────────┘ ║
║                                                                           ║
╚═══════════════════════════════════════════════════════════════════════════╝

3.5 鲁棒性检验（论文表2）

╔══════════════════════════════════════════════════════════════════════════════════════════════════════════════════╗
║                    表2：不同预测模型下的性能对比 (LSTM / RNN / Transformer)                                       ║
╠══════════════════════════════════════════════════════════════════════════════════════════════════════════════════╣
║                                                                                                                  ║
║  ┌──────────────┬─────────────────────────────┬─────────────────────────────────┐                              ║
║  │              │      报童问题 (Large)        │     二分图匹配 (Large)           │                              ║
║  ├──────────────┼──────────┬──────────┬───────┼──────────┬──────────┬───────────┤                              ║
║  │    模型      │  LSTM    │   RNN    │Transformer│  LSTM  │   RNN    │Transformer│                              ║
║  ├──────────────┼──────────┼──────────┼───────┼──────────┼──────────┼───────────┤                              ║
║  │  PTO         │  13.03   │  13.02   │ 12.58 │  0.411   │  0.405   │   0.412   │                              ║
║  ├──────────────┼──────────┼──────────┼───────┼──────────┼──────────┼───────────┤                              ║
║  │  S-DFL       │  12.69   │  12.58   │ 14.04 │  0.421   │  0.411   │   0.413   │                              ║
║  ├──────────────┼──────────┼──────────┼───────┼──────────┼──────────┼───────────┤                              ║
║  │  R-DFL-U     │  10.11   │  10.87   │ 11.23 │  0.401   │  0.397   │   0.405   │                              ║
║  │              │ (531s)   │ (510s)   │ (561s)│ (2704s)  │ (2821s)  │  (4130s)  │                              ║
║  ├──────────────┼──────────┼──────────┼───────┼──────────┼──────────┼───────────┤                              ║
║  │  R-DFL-I     │  10.10   │  10.81   │ 11.33 │  0.389   │  0.399   │   0.407   │                              ║
║  │              │ (355s)   │ (340s)   │ (360s)│ (2093s)  │ (2079s)  │  (2037s)  │                              ║
║  └──────────────┴──────────┴──────────┴───────┴──────────┴──────────┴───────────┘                              ║
║                                                                                                                  ║
║  关键发现:                                                                                                        ║
║  • R-DFL 在不同预测模型架构下均保持优势 (与模型无关)                                                               ║
║  • 隐式方法在所有模型上均比显式方法更快                                                                           ║
║  • R-DFL 的 RMSE 在所有配置下均优于 S-DFL 和 PTO                                                                  ║
║                                                                                                                  ║
╚══════════════════════════════════════════════════════════════════════════════════════════════════════════════════╝

4 后续规划

4.1 论文提出的未来方向

╔═══════════════════════════════════════════════════════════════════════════╗
║                         论文提出的未来研究方向                              ║
╠═══════════════════════════════════════════════════════════════════════════╣
║                                                                           ║
║  ┌─────────────────────────────────────────────────────────────────────┐ ║
║  │ 方向1: 随机递归环境 (Stochastic Recursive Environments)               │ ║
║  │ • 当前假设：确定性环境                                                │ ║
║  │ • 扩展方向：不确定性同时来自参数估计和环境随机性                        │ ║
║  │ • 挑战：需要在递归框架中处理概率分布和期望                             │ ║
║  └─────────────────────────────────────────────────────────────────────┘ ║
║                                                                           ║
║  ┌─────────────────────────────────────────────────────────────────────┐ ║
║  │ 方向2: 整数规划 (Integer Programming)                                 │ ║
║  │ • 当前限制：仅处理连续决策变量 (凸优化)                                │ ║
║  │ • 扩展方向：处理离散决策变量                                          │ ║
║  │ • 挑战：非凸优化 → KKT条件不直接适用 → 需要新的梯度近似方法             │ ║
║  └─────────────────────────────────────────────────────────────────────┘ ║
║                                                                           ║
║  ┌─────────────────────────────────────────────────────────────────────┐ ║
║  │ 方向3: 更通用的框架 (More Versatile Framework)                        │ ║
║  │ • 当前：针对特定问题结构设计                                           │ ║
║  │ • 扩展方向：支持更广泛类别的闭环决策问题                                │ ║
║  │ • 目标：建立统一的递归决策聚焦学习范式                                 │ ║
║  └─────────────────────────────────────────────────────────────────────┘ ║
║                                                                           ║
╚═══════════════════════════════════════════════════════════════════════════╝