LLM 在运筹学中的应用：方法、应用与挑战

📑 页面目录

LLM 在运筹学中的应用：方法、应用与挑战
一、LLM + OR 的三大核心范式深度解析
1. 自动建模范式（Automatic Modeling）
2. 辅助优化求解范式（LLM-Assisted Optimization）
3. LLM 主导的直接求解范式（LLM-Dominated Optimization Solving）
二、学术界与业界当前的聚焦点
三、当前的基准测试总结
1. 针对"自动建模"能力的 Benchmark
2. 针对"求解与推理"能力的 Benchmark
3. 针对"可解释性"的 Benchmark
更详细论文及应用见附录

大语言模型（LLM）在运筹学（OR）中的应用可以系统地划分为三大核心范式：自动建模（Automatic Modeling）、辅助优化求解（LLM-Assisted Optimization）和 LLM 主导的直接求解（LLM-Dominated Optimization Solving）。以下是对这三大范式、当前学术界/业界的聚焦点以及基准测试（Benchmarks）的总结。

一、LLM + OR 的三大核心范式深度解析

1. 自动建模范式（Automatic Modeling）

这是将自然语言问题转化为计算机可识别的数学模型的”桥梁”阶段。

解决的问题

降低运筹学建模门槛，解决传统依赖专家建模耗时耗力的问题。
解决长文本描述中关键约束遗漏和语义歧义的问题。

基本逻辑与流程

核心在于翻译。LLM 接收自然语言描述的优化问题，将其转化为形式化的数学模型（如变量、目标函数、约束条件）或可执行代码（如 Python/Gurobi 代码）。流程通常包含五个步骤闭环：理解（解析目标与约束）→ 提取（识别决策变量等元素）→ 结构化（生成标准模型）→ 转译（生成求解器代码）→ 评估与反馈（运行代码并修正错误）。

主要子路径

基于提示词（Prompting）：通过多阶段或多智能体提示，引导 LLM 生成模型组件。
提示词与微调协同（Prompt-Fine-tuning Synergy）：结合 SFT 和提示工程，解决单一提示的不稳定性。
外部知识引导（Knowledge-Augmented）：引入 RAG 注入领域特定知识，处理复杂约束。

关键发表

OptiMUS
Chain-of-Experts
LLaMoCo
IndustryOR
DROC 等

评估

具有工业应用价值，是实现”人人可用的运筹学”的关键，正从简单 MILP 向复杂图结构和非标准约束扩展。

2. 辅助优化求解范式（LLM-Assisted Optimization）

LLM 不直接给出最终解，而是充当算法设计师或搜索算子，辅助传统算法（如进化算法、强化学习）进行求解。

解决的问题

自动化算法设计，解决传统启发式设计依赖人工经验的问题。
突破局部最优，发现人类未曾想到的新算法结构。

基本逻辑与流程

LLM 利用其代码生成能力和推理能力，生成启发式算法、搜索算子或奖励函数，与传统优化算法形成”感知-推理-反馈”闭环。

主要子路径

启发式结构进化（Heuristic Evolution）
多目标协同（Multi-Objective）
跨范式融合（Cross-Paradigm）

关键发表

FunSearch
EoH
LMEA
AEL
ReEvo
Hercules
MEoH
HSEvo
PoH
CALM
EALG
HeurAgenix
GraphThought 等

评估

学术界最热门方向，结合了 LLM 的创造力与传统算法的严谨性，是通向”自动算法设计”的必经之路。

3. LLM 主导的直接求解范式（LLM-Dominated Optimization Solving）

LLM 被视为一个独立的”求解器”，直接输出最终解。

解决的问题

针对难以显式建模的”黑盒”问题提供快速、通用的解决方案。
适用于小规模或快速原型验证场景。

基本逻辑与流程

零建模：无需构建数学模型或编写算法代码，用户输入问题描述，LLM 直接输出解决方案。
通常利用 CoT 或 Meta-Prompt 技术，通过多轮对话引导 LLM 自我修正。

主要子路径

单模态：仅依赖文本交互。
多模态结构感知：结合视觉输入增强空间感知能力。

关键发表

OPRO
MLLM-V 等

特点与局限

特点：通用性强，无需训练，交互灵活。
局限：容易产生幻觉，难以处理大规模问题或复杂约束，性能波动大。

二、学术界与业界当前的聚焦点

系统化与闭环

研究重心已从单点任务验证转向构建完整的智能优化系统，强调”生成-验证-修复”闭环。

核心聚焦范式

辅助优化（特别是启发式进化）是学术界的焦点：FunSearch 等工作证明了其发现新知识的潜力。
自动建模是工业界的应用热点：通过微调和 RAG 技术，该方向正变得越来越实用。
直接求解范式相对边缘化：目前更多用于简单问题或作为启发式初值生成器。

三、当前的基准测试总结

1. 针对"自动建模"能力的 Benchmark

NL4OPT：早期基础基准。
IndustryOR：工业覆盖面最广，含 16 个行业 1556 个问题。
ComplexOR：高难度验证基准。
MAMO、OptiBench / ReSocratic、EquivaMap 等。

2. 针对"求解与推理"能力的 Benchmark

NLGraph、GraphArena、CO-Bench、FrontierCO、HeuriGym、ALE-Bench 等。

3. 针对"可解释性"的 Benchmark

EOR：第一个工业级可解释性优化数据集。

更详细论文及应用见附录

1. 关键范式一：自动建模

1.1 基于提示词的路径

论文/机构	年份	核心逻辑	解决的问题	效果
OptiMUS (Cornell)	2024	模块化建模代理系统，引入连接图机制	长文本关键信息丢失，复杂问题分解	提升大规模问题建模准确率
Chain-of-Experts (NUS/Huawei)	ICLR 2024	多角色 Agent 协作，前向构建+后向反思	减少逻辑幻觉，提高模型正确性	提升代码可执行率
OptLLM (Alibaba)	2024	三阶段交互式对话，主动消除歧义	用户需求表述不清	提升意图理解准确性
NL2OR	2025	生成 DSL + JSON Schema 验证	语法错误和 API 调用错误	保证语法正确性
Autoformulator	2024	MCTS + 分层分解	寻找最佳数学表述	验证系统性探索能力
MA-GTS	2025	多智能体框架，重构图拓扑结构	图结构提取困难	实现自然语言到图结构的映射
OR-LLM-Agent	2025	推理驱动的闭环，自我修复	代码无法运行或逻辑错误	实现端到端自动化求解

1.2 提示词与微调协同

论文/作者	年份	核心逻辑	解决的问题	效果
AI Copilot	2023	拆解为 9 个子模块 + SFT	Token 限制，生成完整性	确保代码完整性和可执行性
Li et al.	2023	三阶段微调框架	变量遗漏和约束误判	减少变量遗漏和误判
LLaMoCo	2024	Code-to-Code 指令微调 + 对比学习	Prompt 不稳定性	泛化能力强
Evo-Step-Instruct	-	进化数据生成 + 逐步验证	高质量数据稀缺	提升稳定性
LLMOPT	2024	五元组建模结构 + MI-SFT + KTO	输出格式不统一	提升标准化和稳定性
OptMATH (PKU)	2025	三元组数据集 + LoRA + 反馈机制	语义鸿沟	提升数学表达与代码实现对齐
STR-CMP (SJTU)	2025	结构引导生成 + DPO 迭代	对隐含结构感知弱	生成更符合求解器规范的代码

1.3 外部知识引导机制

论文/作者	年份	核心逻辑	解决的问题	效果
DROC	ICLR 2025	语义检索提取约束知识	缺乏领域业务规则	处理复杂现实约束 VRP
a knowledge-guided automated MILP modeling framework (HUST)	2025	领域知识库指导变量和约束生成	敏感数据无法上传，专业性不足	强稳定性和生成能力

2. 关键范式二：辅助优化求解

2.1 启发式结构进化与策略优化

论文/作者	年份	核心逻辑	解决的问题	效果
LMEA	IEEE CEC 2024	Zero-shot 算子，温度自适应	算子设计依赖人工	减少设计复杂度
AEL (SUSTech)	CoRR 2024	算法自我进化，LLM4AD 平台	自动发现新算法逻辑	优于人工设计方案
ARS (CUHK, Huawei)	2025	约束感知启发式构造	VRP 变体规则设计耗时	端到端优化
FunSearch (Google DeepMind)	Nature 2024	程序搜索+评估器，分布式架构	LLM 幻觉	发现超越人类的新算法
QUBE	2024	不确定性指标指导父代选择	陷入局部最优	提升质量和稳定性
ReEvo	NeurIPS 2024	双层反思（短期+长期）	难以从数值反馈学习	效率显著提升
AutoSAT	2024	模块替换，评估候选函数	求解器组件难以调优	自动化提升性能
CRISPE / ZSO	Cluster Computing 2024	结构化 Prompt 框架	Prompt 质量影响大	强收敛稳定性
HeurAgenix	2025	多智能体协作（生成/进化/评估/选择）	单一 Agent 兼顾困难	自适应启发式演化
SeEvo	2024	种群自进化，个体+集体反思	动态车间调度适应性	优于传统静态规则
HSEvo	AAAI 2025	和声搜索 + 角色扮演 Prompt	维持多样性	增强适应性并维持多样性
GraphThought	2025	思维生成，推理路径+模板合成	图结构识别	推进图优化结构识别
AutoHD	2025	“探索+修改”策略	复杂规划推理效率	提升求解质量和效率
PAIR	2025	人类偏好选择，结构化 Prompt	选择机制缺乏语义指导	赋予选择和调节能力
CEoH	2025	上下文驱动，结构化 Prompt	适应性差	生成更具针对性的启发式
Hercules	KDD 2025	性能预测 + 置信度控制	评估成本高	平衡生成与评估
RedAHD	2025	语言缩减 + 并行进化	原问题过于复杂	扩展启发式发现边界
MoH	2025	双层元优化（外层生成优化器）	优化器结构固定	强泛化能力
EALG	2025	对抗协同进化（问题 vs 求解器）	鲁棒性不足	提升难度和策略适应性

图：EoH（Evolution of Heuristics）方法框架

图：ReEvo（Reflective Evolution）方法框架

2.2 多目标优化协作

论文/作者	年份	核心逻辑	解决的问题	效果
MOEA/D-LLM	EMCO 2025	子代生成 + 线性算子	计算成本高	降低成本，保持泛化
CCMO	ICIC 2024	LLM 作为搜索算子嵌入 CCMO	收敛速度慢	加速收敛，提升质量
Low-cost Adaptive	2024	按需调用 LLM	资源受限	有限资源下提升质量
Huang et al.	IEEE TEVC 2025	生成可执行变异算子代码	固定算子缺乏适应性	增强适应性和结构灵活性
MEoH	AAAI 2025	非支配启发式集合	多目标策略单一	自动进化非支配启发式
REMOH	2025	聚类反思 + NSGA-II	多样性与鲁棒性	提升多样性和鲁棒性
MLHH	ICLR 2025	统一超启发式框架	缺乏统一演化框架	系统级多目标策略优化
IlmPC-NSGA-II	IEEE CEC 2024	嵌入 NSGA-II，生成完整子代种群	金融应用	验证收敛性和多样性

2.3 跨范式融合

论文/作者	年份	核心逻辑	解决的问题	效果
Sartori et al.	2025	LNS/BRKGA 融合，年龄偏差+熵正则化	缺乏结构感知	提升结构感知能力
Ye et al.	-	双层 LNS，内层生成策略，外层进化 Prompt	搜索效率	平衡效率与收敛
Wang et al.	IEEE SMC 2024	三阶段 Prompt + 温度控制	局部最优	增强跳出局部最优能力
AutoDH	IEEE ICSP 2024	RL 策略选择启发式函数池	策略动态调整	实现子路径优化和反馈驱动
Evo-Tune	2025	程序采样 + DPO	生成质量	偏向更高质量结构
CALM (CUHK)	2025	GRPO + 崩塌-重启	稳定性	提升鲁棒性和稳定性
Jiang et al.	2024	神经符号系统，语义编码+RL	语义与结构统一	统一语义与结构约束
LLM+NCO solver	ICLR 2025	生成注意力偏置，集成到 POMO/LEHD	跨规模泛化	轻量级微调下跨规模泛化
S2RCQL	ICIC 2025	空间 Prompt + Q-learning	空间推理弱	降低学习难度，提升稳定性
MCTS-AHD (NUS)	2025	双重调用机制（生成启发式+语义描述）	语义一致性	增强语义一致性和可解释性
PoH	ICML 2025	MCTS 主导，状态-动作-奖励闭环	缺乏全局规划	改善全局搜索

3. 关键范式三：LLM 主导的直接求解

3.1 单模态生成优化

论文/作者	年份	核心逻辑	解决的问题	效果
OPRO (Google DeepMind)	2024	Meta-Prompt 迭代，无梯度/无算子	黑盒优化	证明 LLM 自主探索解空间潜力
Guo et al.	2023	CoT + 历史记忆	推理深度	从单次生成到交互收敛
Dellma (USC)	2024	效用建模，状态预测+偏好排序	不确定环境决策	提升决策鲁棒性
Self-debugging (USC)	2024	NL 转 Python → 执行 → 调试 → 验证	解的可行性	Zero-shot 优化 VRP
Self-Guiding Exploration	NeurIPS 2024	递归子任务优化	解的范围与多样性	扩展解空间
Gcoder (HKU)	2024	SFT + RLF + RAG	NL 到图代码映射	跨任务泛化
ACCORD	2025	约束感知解码，强制满足约束	复杂约束满足	统一求解 NP-hard 问题

3.2 多模态结构感知

论文/作者	年份	核心逻辑	解决的问题	效果
MLLM-V	IEEE MCII 2025	图文 Prompt 融合，模拟人类视觉认知	空间感知缺失	视觉信息显著提升 VRP 解质量
Elhenawy et al.	2024	纯视觉驱动，双智能体架构	坐标依赖	处理复杂几何结构优化

4. 综合基准测试

4.1 自动建模基准测试

基准名称	发表信息	核心逻辑	解决的问题与效果
ComplexOR	ICLR 2024	测试复杂长文本建模鲁棒性	评估复杂问题建模
IndustryOR	Operations Research 2025	16 个行业 1556 个问题	接近人类专家水平
OptiBench (ReSocratic)	2024	反向翻译增强数据	提升 LLaMA 在 MILP 上的表现
Extended OptiBench	ICLR 2025	80+ 领域，816 个问题	强化跨任务评估
EquivaMap	arXiv 2025	结构等价性检测	判断语义等价性
TEXT2ZINC	arXiv 2025	MiniZinc 标准化，110 个问题	证明 CoT 优于直接 Prompt
CP-Bench	arXiv 2025	101 个问题，241 种约束类型	Python 框架更适合建模

4.2 优化求解基准测试

基准名称	发表信息	核心逻辑	解决的问题与效果
NLGraph	NeurIPS 2023	8 类图推理任务	评估图问题解决能力
PPNL	ICLR 2024	网格世界路径规划	评估空间导航推理
AsyncHow	PMLR 2024	多步异步任务，1600 个实例	评估任务依赖处理
GraphArena	ICLR 2025	三阶段评估，幻觉检测	诊断推理过程
ORQA	AAAI 2025	20 个领域，1513 个选择题	评估运筹学知识
EOR	ICLR 2025	可解释性，30 类问题	填补解释性评估空白
CO-Bench	arXiv 2025	36 类现实问题，全流程评估	评估算法设计端到端能力
FrontierCO	arXiv 2025	8 项组合优化任务评估	比较 LLM 与神经/启发式方法
HeuriGym	ICLR 2026	生成-反馈-细化闭环	评估启发式设计成功率和质量
ALE-Bench	arXiv 2025	基于 AtCoder 的长视界优化	评估多轮迭代和长期规划
OPT-BENCH	arXiv 2025	20 个超参优化 + 10 个 NP-hard	评估大规模搜索空间表现

← 返回 AI