LLM 在运筹学中的应用:方法、应用与挑战

LLM + OR 的三大核心范式深度解析

大语言模型(LLM)在运筹学(OR)中的应用可以系统地划分为三大核心范式:自动建模(Automatic Modeling)、辅助优化求解(LLM-Assisted Optimization)和 LLM 主导的直接求解(LLM-Dominated Optimization Solving)。以下是对这三大范式、当前学术界/业界的聚焦点以及基准测试(Benchmarks)的总结。

一、LLM + OR 的三大核心范式深度解析

1. 自动建模范式(Automatic Modeling)

这是将自然语言问题转化为计算机可识别的数学模型的”桥梁”阶段。

解决的问题
  • 降低运筹学建模门槛,解决传统依赖专家建模耗时耗力的问题。
  • 解决长文本描述中关键约束遗漏和语义歧义的问题。
基本逻辑与流程

核心在于翻译。LLM 接收自然语言描述的优化问题,将其转化为形式化的数学模型(如变量、目标函数、约束条件)或可执行代码(如 Python/Gurobi 代码)。流程通常包含五个步骤闭环:理解(解析目标与约束)→ 提取(识别决策变量等元素)→ 结构化(生成标准模型)→ 转译(生成求解器代码)→ 评估与反馈(运行代码并修正错误)。

主要子路径
  • 基于提示词(Prompting):通过多阶段或多智能体提示,引导 LLM 生成模型组件。
  • 提示词与微调协同(Prompt-Fine-tuning Synergy):结合 SFT 和提示工程,解决单一提示的不稳定性。
  • 外部知识引导(Knowledge-Augmented):引入 RAG 注入领域特定知识,处理复杂约束。
关键发表
  • OptiMUS
  • Chain-of-Experts
  • LLaMoCo
  • IndustryOR
  • DROC 等
评估

具有工业应用价值,是实现”人人可用的运筹学”的关键,正从简单 MILP 向复杂图结构和非标准约束扩展。

2. 辅助优化求解范式(LLM-Assisted Optimization)

LLM 不直接给出最终解,而是充当算法设计师搜索算子,辅助传统算法(如进化算法、强化学习)进行求解。

解决的问题
  • 自动化算法设计,解决传统启发式设计依赖人工经验的问题。
  • 突破局部最优,发现人类未曾想到的新算法结构。
基本逻辑与流程

LLM 利用其代码生成能力和推理能力,生成启发式算法、搜索算子或奖励函数,与传统优化算法形成”感知-推理-反馈”闭环。

主要子路径
  • 启发式结构进化(Heuristic Evolution)
  • 多目标协同(Multi-Objective)
  • 跨范式融合(Cross-Paradigm)
关键发表
  • FunSearch
  • EoH
  • LMEA
  • AEL
  • ReEvo
  • Hercules
  • MEoH
  • HSEvo
  • PoH
  • CALM
  • EALG
  • HeurAgenix
  • GraphThought 等
评估

学术界最热门方向,结合了 LLM 的创造力与传统算法的严谨性,是通向”自动算法设计”的必经之路。

3. LLM 主导的直接求解范式(LLM-Dominated Optimization Solving)

LLM 被视为一个独立的”求解器”,直接输出最终解。

解决的问题
  • 针对难以显式建模的”黑盒”问题提供快速、通用的解决方案。
  • 适用于小规模或快速原型验证场景。
基本逻辑与流程
  • 零建模:无需构建数学模型或编写算法代码,用户输入问题描述,LLM 直接输出解决方案。
  • 通常利用 CoT 或 Meta-Prompt 技术,通过多轮对话引导 LLM 自我修正。
主要子路径
  • 单模态:仅依赖文本交互。
  • 多模态结构感知:结合视觉输入增强空间感知能力。
关键发表
  • OPRO
  • MLLM-V 等
特点与局限
  • 特点:通用性强,无需训练,交互灵活。
  • 局限:容易产生幻觉,难以处理大规模问题或复杂约束,性能波动大。

二、学术界与业界当前的聚焦点

系统化与闭环

研究重心已从单点任务验证转向构建完整的智能优化系统,强调”生成-验证-修复”闭环。

核心聚焦范式
  • 辅助优化(特别是启发式进化)是学术界的焦点:FunSearch 等工作证明了其发现新知识的潜力。
  • 自动建模是工业界的应用热点:通过微调和 RAG 技术,该方向正变得越来越实用。
  • 直接求解范式相对边缘化:目前更多用于简单问题或作为启发式初值生成器。

三、当前的基准测试总结

1. 针对"自动建模"能力的 Benchmark

  • NL4OPT:早期基础基准。
  • IndustryOR:工业覆盖面最广,含 16 个行业 1556 个问题。
  • ComplexOR:高难度验证基准。
  • MAMOOptiBench / ReSocraticEquivaMap 等。

2. 针对"求解与推理"能力的 Benchmark

  • NLGraphGraphArenaCO-BenchFrontierCOHeuriGymALE-Bench 等。

3. 针对"可解释性"的 Benchmark

  • EOR:第一个工业级可解释性优化数据集。

更详细论文及应用见附录

1. 关键范式一:自动建模

1.1 基于提示词的路径

论文/机构 年份 核心逻辑 解决的问题 效果
OptiMUS (Cornell) 2024 模块化建模代理系统,引入连接图机制 长文本关键信息丢失,复杂问题分解 提升大规模问题建模准确率
Chain-of-Experts (NUS/Huawei) ICLR 2024 多角色 Agent 协作,前向构建+后向反思 减少逻辑幻觉,提高模型正确性 提升代码可执行率
OptLLM (Alibaba) 2024 三阶段交互式对话,主动消除歧义 用户需求表述不清 提升意图理解准确性
NL2OR 2025 生成 DSL + JSON Schema 验证 语法错误和 API 调用错误 保证语法正确性
Autoformulator 2024 MCTS + 分层分解 寻找最佳数学表述 验证系统性探索能力
MA-GTS 2025 多智能体框架,重构图拓扑结构 图结构提取困难 实现自然语言到图结构的映射
OR-LLM-Agent 2025 推理驱动的闭环,自我修复 代码无法运行或逻辑错误 实现端到端自动化求解

1.2 提示词与微调协同

论文/作者 年份 核心逻辑 解决的问题 效果
AI Copilot 2023 拆解为 9 个子模块 + SFT Token 限制,生成完整性 确保代码完整性和可执行性
Li et al. 2023 三阶段微调框架 变量遗漏和约束误判 减少变量遗漏和误判
LLaMoCo 2024 Code-to-Code 指令微调 + 对比学习 Prompt 不稳定性 泛化能力强
Evo-Step-Instruct - 进化数据生成 + 逐步验证 高质量数据稀缺 提升稳定性
LLMOPT 2024 五元组建模结构 + MI-SFT + KTO 输出格式不统一 提升标准化和稳定性
OptMATH (PKU) 2025 三元组数据集 + LoRA + 反馈机制 语义鸿沟 提升数学表达与代码实现对齐
STR-CMP (SJTU) 2025 结构引导生成 + DPO 迭代 对隐含结构感知弱 生成更符合求解器规范的代码

1.3 外部知识引导机制

论文/作者 年份 核心逻辑 解决的问题 效果
DROC ICLR 2025 语义检索提取约束知识 缺乏领域业务规则 处理复杂现实约束 VRP
a knowledge-guided automated MILP modeling framework (HUST) 2025 领域知识库指导变量和约束生成 敏感数据无法上传,专业性不足 强稳定性和生成能力

2. 关键范式二:辅助优化求解

2.1 启发式结构进化与策略优化

论文/作者 年份 核心逻辑 解决的问题 效果
LMEA IEEE CEC 2024 Zero-shot 算子,温度自适应 算子设计依赖人工 减少设计复杂度
AEL (SUSTech) CoRR 2024 算法自我进化,LLM4AD 平台 自动发现新算法逻辑 优于人工设计方案
ARS (CUHK, Huawei) 2025 约束感知启发式构造 VRP 变体规则设计耗时 端到端优化
FunSearch (Google DeepMind) Nature 2024 程序搜索+评估器,分布式架构 LLM 幻觉 发现超越人类的新算法
QUBE 2024 不确定性指标指导父代选择 陷入局部最优 提升质量和稳定性
ReEvo NeurIPS 2024 双层反思(短期+长期) 难以从数值反馈学习 效率显著提升
AutoSAT 2024 模块替换,评估候选函数 求解器组件难以调优 自动化提升性能
CRISPE / ZSO Cluster Computing 2024 结构化 Prompt 框架 Prompt 质量影响大 强收敛稳定性
HeurAgenix 2025 多智能体协作(生成/进化/评估/选择) 单一 Agent 兼顾困难 自适应启发式演化
SeEvo 2024 种群自进化,个体+集体反思 动态车间调度适应性 优于传统静态规则
HSEvo AAAI 2025 和声搜索 + 角色扮演 Prompt 维持多样性 增强适应性并维持多样性
GraphThought 2025 思维生成,推理路径+模板合成 图结构识别 推进图优化结构识别
AutoHD 2025 “探索+修改”策略 复杂规划推理效率 提升求解质量和效率
PAIR 2025 人类偏好选择,结构化 Prompt 选择机制缺乏语义指导 赋予选择和调节能力
CEoH 2025 上下文驱动,结构化 Prompt 适应性差 生成更具针对性的启发式
Hercules KDD 2025 性能预测 + 置信度控制 评估成本高 平衡生成与评估
RedAHD 2025 语言缩减 + 并行进化 原问题过于复杂 扩展启发式发现边界
MoH 2025 双层元优化(外层生成优化器) 优化器结构固定 强泛化能力
EALG 2025 对抗协同进化(问题 vs 求解器) 鲁棒性不足 提升难度和策略适应性
EoH 方法框架

图:EoH(Evolution of Heuristics)方法框架

ReEvo 方法框架

图:ReEvo(Reflective Evolution)方法框架

2.2 多目标优化协作

论文/作者 年份 核心逻辑 解决的问题 效果
MOEA/D-LLM EMCO 2025 子代生成 + 线性算子 计算成本高 降低成本,保持泛化
CCMO ICIC 2024 LLM 作为搜索算子嵌入 CCMO 收敛速度慢 加速收敛,提升质量
Low-cost Adaptive 2024 按需调用 LLM 资源受限 有限资源下提升质量
Huang et al. IEEE TEVC 2025 生成可执行变异算子代码 固定算子缺乏适应性 增强适应性和结构灵活性
MEoH AAAI 2025 非支配启发式集合 多目标策略单一 自动进化非支配启发式
REMOH 2025 聚类反思 + NSGA-II 多样性与鲁棒性 提升多样性和鲁棒性
MLHH ICLR 2025 统一超启发式框架 缺乏统一演化框架 系统级多目标策略优化
IlmPC-NSGA-II IEEE CEC 2024 嵌入 NSGA-II,生成完整子代种群 金融应用 验证收敛性和多样性

2.3 跨范式融合

论文/作者 年份 核心逻辑 解决的问题 效果
Sartori et al. 2025 LNS/BRKGA 融合,年龄偏差+熵正则化 缺乏结构感知 提升结构感知能力
Ye et al. - 双层 LNS,内层生成策略,外层进化 Prompt 搜索效率 平衡效率与收敛
Wang et al. IEEE SMC 2024 三阶段 Prompt + 温度控制 局部最优 增强跳出局部最优能力
AutoDH IEEE ICSP 2024 RL 策略选择启发式函数池 策略动态调整 实现子路径优化和反馈驱动
Evo-Tune 2025 程序采样 + DPO 生成质量 偏向更高质量结构
CALM (CUHK) 2025 GRPO + 崩塌-重启 稳定性 提升鲁棒性和稳定性
Jiang et al. 2024 神经符号系统,语义编码+RL 语义与结构统一 统一语义与结构约束
LLM+NCO solver ICLR 2025 生成注意力偏置,集成到 POMO/LEHD 跨规模泛化 轻量级微调下跨规模泛化
S2RCQL ICIC 2025 空间 Prompt + Q-learning 空间推理弱 降低学习难度,提升稳定性
MCTS-AHD (NUS) 2025 双重调用机制(生成启发式+语义描述) 语义一致性 增强语义一致性和可解释性
PoH ICML 2025 MCTS 主导,状态-动作-奖励闭环 缺乏全局规划 改善全局搜索

3. 关键范式三:LLM 主导的直接求解

3.1 单模态生成优化

论文/作者 年份 核心逻辑 解决的问题 效果
OPRO (Google DeepMind) 2024 Meta-Prompt 迭代,无梯度/无算子 黑盒优化 证明 LLM 自主探索解空间潜力
Guo et al. 2023 CoT + 历史记忆 推理深度 从单次生成到交互收敛
Dellma (USC) 2024 效用建模,状态预测+偏好排序 不确定环境决策 提升决策鲁棒性
Self-debugging (USC) 2024 NL 转 Python → 执行 → 调试 → 验证 解的可行性 Zero-shot 优化 VRP
Self-Guiding Exploration NeurIPS 2024 递归子任务优化 解的范围与多样性 扩展解空间
Gcoder (HKU) 2024 SFT + RLF + RAG NL 到图代码映射 跨任务泛化
ACCORD 2025 约束感知解码,强制满足约束 复杂约束满足 统一求解 NP-hard 问题

3.2 多模态结构感知

论文/作者 年份 核心逻辑 解决的问题 效果
MLLM-V IEEE MCII 2025 图文 Prompt 融合,模拟人类视觉认知 空间感知缺失 视觉信息显著提升 VRP 解质量
Elhenawy et al. 2024 纯视觉驱动,双智能体架构 坐标依赖 处理复杂几何结构优化

4. 综合基准测试

4.1 自动建模基准测试

基准名称 发表信息 核心逻辑 解决的问题与效果
ComplexOR ICLR 2024 测试复杂长文本建模鲁棒性 评估复杂问题建模
IndustryOR Operations Research 2025 16 个行业 1556 个问题 接近人类专家水平
OptiBench (ReSocratic) 2024 反向翻译增强数据 提升 LLaMA 在 MILP 上的表现
Extended OptiBench ICLR 2025 80+ 领域,816 个问题 强化跨任务评估
EquivaMap arXiv 2025 结构等价性检测 判断语义等价性
TEXT2ZINC arXiv 2025 MiniZinc 标准化,110 个问题 证明 CoT 优于直接 Prompt
CP-Bench arXiv 2025 101 个问题,241 种约束类型 Python 框架更适合建模

4.2 优化求解基准测试

基准名称 发表信息 核心逻辑 解决的问题与效果
NLGraph NeurIPS 2023 8 类图推理任务 评估图问题解决能力
PPNL ICLR 2024 网格世界路径规划 评估空间导航推理
AsyncHow PMLR 2024 多步异步任务,1600 个实例 评估任务依赖处理
GraphArena ICLR 2025 三阶段评估,幻觉检测 诊断推理过程
ORQA AAAI 2025 20 个领域,1513 个选择题 评估运筹学知识
EOR ICLR 2025 可解释性,30 类问题 填补解释性评估空白
CO-Bench arXiv 2025 36 类现实问题,全流程评估 评估算法设计端到端能力
FrontierCO arXiv 2025 8 项组合优化任务评估 比较 LLM 与神经/启发式方法
HeuriGym ICLR 2026 生成-反馈-细化闭环 评估启发式设计成功率和质量
ALE-Bench arXiv 2025 基于 AtCoder 的长视界优化 评估多轮迭代和长期规划
OPT-BENCH arXiv 2025 20 个超参优化 + 10 个 NP-hard 评估大规模搜索空间表现
← 返回 AI