端到端业内落地调研

京东 & 美团:Decision-Focused Learning 在供应链与营销的工业化落地

一、论文解读(按公司及时间顺序)

1. 京东 — 2023年(Management Science):A Practical End-to-End Inventory Management Model with Deep Learning

作者:京东 / UC San Diego  |  发表:Management Science, 2023

这篇论文是京东与学界合作的早期端到端库存管理探索。传统多周期库存管理需要先预测需求和供应商提前期(VLT),再代入库存策略(如 (s,S) 策略)。论文指出这种"预测后优化"会导致误差累积且目标不一致。

核心贡献:理论证明了多周期库存问题可以分解为多个独立的单周期问题,从而可以利用"事后最优解"作为深度学习模型的训练标签;设计了包含 MQRNN(多分位数循环神经网络)和 MLP 的定制化神经网络结构,端到端输出补货决策。
落地结果:在京东真实数据上的离线仿真和 2020 年的实地实验(覆盖数千 SKU)中,该 E2E 模型显著降低了持有成本、缺货成本和总库存成本。

2. 京东 — 2025年(arXiv):OTPTO: Joint Product Selection and Inventory Optimization in Fresh E-Commerce Front-End Warehouses

作者:京东  |  发表:arXiv, 2025

这是京东针对生鲜电商前置仓场景提出的更精细化的端到端方案。核心挑战是容量极小(SKU 种类上限、总库存量上限、单品最低库存量),需同时决定"选哪些品"和"各存多少",目标是最大化订单完全履约率。

创新点:采用 Optimize-then-Predict-then-Optimize 三阶段流程。先通过 0-1 混合整数规划(OM1)求解历史上的最优库存决策(作为"黄金标签"),再用 LightGBM 并行学习选品(PM1)和库存量(PM2),最后通过后处理(OM2)满足实际约束。特别针对 MIP 多最优解导致的样本不一致问题,设计了标签生成与平滑策略。
落地结果:在京东 7Fresh 真实数据上,订单完全履约率相对提升 7.05%,与理论最优的差距缩小 5.27%,并在多个前置仓验证了鲁棒性。

3. 美团 — 2024年(KDD):Decision Focused Causal Learning for Direct Counterfactual Marketing Optimization

作者:美团 / 南京大学  |  发表:KDD, 2024

这是美团将决策焦点学习(DFL)应用于营销优化的早期工作,主要解决三个实际问题:预算约束不确定、反事实导致决策损失无法直接计算、大规模数据下高频调用 OR 求解器的计算成本高。

核心思想:将预算分配问题转化为对偶问题,利用拉格朗日乘子将不确定的预算约束吸收进目标函数,从而定义可微分的"对偶决策损失"。提出了多种可微替代损失(Policy Learning Loss, Maximum Entropy Regularized Loss)和改进的有限差分法(IFD)来高效估计梯度。
落地结果:在 Criteo 公开数据和美团折扣营销数据上离线评估(EOM/AUCC)优于传统两阶段方法;在线 A/B 测试四週,DFCL 相对 TSM-SL 订单提升 2.17%,优于 DPM 的 1.32%。

4. 美团 — 2025年(NeurIPS):Bi-Level Decision-Focused Causal Learning for Large-Scale Marketing Optimization

作者:美团 / 南京大学  |  发表:NeurIPS, 2025

这是美团 DFCL 的进阶版本,核心突破是系统性地解决营销优化中的两大难题:预测-决策目标错位偏差-方差困境(观测数据量大但有偏,RCT 数据无偏但量小且昂贵)。

核心思想:提出双层优化框架。上层(Upper Level)利用无偏的 RCT 数据优化决策损失(LDL),下层(Lower Level)利用大规模的观测数据(OBS)优化预测损失(LPL)。通过隐式微分和共轭梯度法高效求解双层优化,并引入"桥接网络"动态生成反事实伪标签,使下层预测学习方向得到上层的无偏校正。
落地结果:在美团两个营销数据集和公开数据集上,EOM 指标提升显著;在线 A/B 测试中,Bi-DFCL-PIFD 相对 TSM-SL 订单提升 3.22%,优于 DFCL-PIFD 的 1.80%。目前已部署于美团多个营销场景。

二、调研表格(按公司及时间顺序)

方法/框架 公司/机构 时间 解决的问题 核心思想 关键技术/创新点 实验/落地情况
E2E Inventory Management 京东 / UC San Diego 2023 (Management Science) 多周期库存管理,同时存在随机需求和随机供应商提前期(VLT),最小化总库存成本。 端到端(E2E)学习:直接训练深度学习模型从输入特征输出最优补货决策。 理论证明多周期问题可分解,利用"事后最优解"作为标签;定制 MQRNN+MLP 网络结构;多任务损失(补货主任务+预测辅助任务)。 离线仿真(京东真实数据)优于传统策略;2020 年实地实验(数千 SKU)显著降低持有成本、缺货成本、缺货率。
OTPTO 京东 2025 (arXiv) 生鲜电商前置仓的联合选品与库存优化,受限于极小容量,最大化订单完全履约率。 Optimize-then-Predict-then-Optimize:先求解历史最优解作为标签,再学习该最优决策,最后后处理满足约束。 0-1 MIP 模型 OM1 获取历史最优库存;标签平滑+特征工程解决样本不一致性;PM1+PM2 并行预测;OM2 后处理约束校准。 京东 7Fresh 数据:订单完全履约率绝对提升 4.34%(相对 7.05%),与理论上界差距缩小 5.27%;多仓库验证鲁棒。
DFCL 美团 / 南京大学 2024 (KDD) 营销预算分配(多折扣选择),应对预算不确定性、反事实缺失、大规模计算成本。 决策焦点学习 + 拉格朗日对偶:将对偶问题作为学习目标,设计可微分替代损失,对预算不敏感。 对偶决策损失;策略学习损失(PLL)和最大熵正则损失(MERL);改进有限差分法(IFD)提升训练效率。 Criteo 和美团数据离线评估(EOM/AUCC)优于 TSM、DPM;在线 A/B 测试四週,订单相对提升 2.17%,已部署。
Bi-DFCL 美团 / 南京大学 2025 (NeurIPS) 大规模营销优化,同时解决预测-决策目标错位和观测数据有偏(偏差-方差困境)。 双层优化:上层用 RCT 无偏数据优化决策损失,下层用大规模 OBS 数据优化预测损失,通过隐式微分端到端训练。 基于 RCT 的无偏决策损失估计;双层优化+隐式微分+共轭梯度求解;桥接网络生成反事实伪标签,动态校正观测数据学习方向。 公开及美团数据集上显著优于 SOTA;在线 A/B 测试订单相对提升 3.22%(vs TSM-SL),优于 DFCL 和 DPM;已部署于多个营销场景。
总结:京东侧重供应链(库存管理 → 联合选品与库存),路线从"事后标签学习"到"Optimize-Predict-Optimize";美团侧重营销(预算分配 → 双层反事实优化),从单一对偶损失演进到双层桥接网络。两家公司的共同趋势:都在消除"预测-决策"之间的目标错位,且都通过在线 A/B 测试验证了真实的业务效果。