Traveling Salesman Problem (TSP) is a classic problem in Combinatorial Optimization Problem (COP),which has been repeatedly studied for many years. In recent years,Deep Reinforcement Learning(DRL)has been widely applied in driverless,industrial automation,game and other fields,showing strong decision⁃making and learning ability. In this paper,DRL and graph attention model are combined to solve TSP by minimizing the path length. Specifically,the behavioral network parameters are trained by an improved REINFORCE algorithm to effectively reduce the variance and prevent local optima; Positional Encoding (PE) is used to the encoding structure to make the multiple node satisfy translation invariance during the embedding process and enhance the stability of the model. Further,we combine Graph Neural Network (GNN) and Transformer architecture,and apply GNN aggregate operation processing to transformer decoding stage for the first time,which effectively capture the topological structure of the graph and the potential relationships between points. The experimental results show that the optimization effect of the model on the 100⁃TSP problem surpasses the current DRL⁃based methods and some traditional algorithms.
Wang Yang, Chen Zhibin, Yang Xiaoxiao, Wu Zhaorui. Deep reinforcement learning combined with graph attention model to solve TSP. Journal of nanjing University[J], 2022, 58(3): 420-429 doi:10.13232/j.cnki.jnju.2022.03.006
2015年Vinyals et al[13]针对Seq2Seq序列模型以固定的维度输入和输出,对其进行改进,提出指针网络(Pointer Network,PN)架构.此架构为基于机器学习(Machine Learning,ML)等新方法求解COP问题的工作奠定了很好的理论基础,之后的很多工作都基于此框架展开研究.监督学习(Supervised Learning,SL)的训练过程需要大量标签,TSP问题的高质量标签不易获得,2016年Bello et al[14]将NN和DRL算法结合,提出神经组合最优化(Neural Combinatorial Optimization,NCO)模型,采用REINFORCE算法训练PN网络,克服了对COP问题数据标签的依赖,扩大了TSP的求解范围.2018年Deudon et al[15]改进NCO模型,设计新的评判网络基准,推理阶段加入2⁃opt操作提高解的质量.2018年Nazari et al[16]将PN结构拓展成能够处理动态信息的COP模型,具体采用卷积神经网络(Convolutional Neural Network,CNN)替代编码层的长短期记忆网络(Long Short⁃Term Memory,LSTM),有效求解带容量的车辆路径问题(Capacitated Vehicle Routing Problem, CVRP).2020年Costa et al[17]提出基于DRL学习2⁃opt操作的局部搜索启发式算法,使模型更容易拓展到更一般情形的k⁃opt操作,提升了TSP问题的求解质量.
图的特殊结构可以承载更多的节点信息,因此可以通过低维的向量信息来表征图的节点及拓扑结构,这种方法可以很好地处理非欧几里得数据,让网络模型容易学习到有效的特征信息.鉴于此,2017年Dai et al[18]将DRL和GNN结合,提出S2V⁃DQN模型,求解大规模TSP问题.2019年Kool et al[19]基于Transformer结构[6],采用多重注意力机制(Multi Head Attention,MHA)的自注意力机制计算方法提取深层节点的特征信息,有效防止了节点信息的丢失,该模型与PN网络相比,泛化能力更好,训练速度更快.2019年Chen and Tian[20]提出NeuRewriter架构,通过DRL训练模型,以迭代的方式不断改进CVRP问题的解直到收敛.2020年Li et al[21]提出一种基于DRL解决多目标COP问题的框架(DRL⁃MOA),在PN网络中融入分解策略和邻居多参数传递策略,有效求解TSP问题.2021年Wu et al[22]提出一种直接策略的方法,通过self⁃注意力机制参数化策略模型,在模型训练阶段即可得到TSP和CVRP问题的解.2021年Xin et al[23]提出多重解码注意力模型(MDAM),求解多目标路径问题,并在编码中加入Embedding Glimpse层,提升了模型整体优化性能.
Fig.1
Schematic diagram of graph attention model proposed in this paper
2.1 多重初始点
TSP问题的策略(式(2))以为起点与中任意起点得到的解是等价的,如果轨迹是一个最优解,那么轨迹也是一个最优解.图2展示了四个节点的多重选择.先前工作[14-20]只考虑单一最优路径,而本文类似Kwon et al[5],采用种不同的点序列表征最优解,模型在编码、解码、推理阶段均放置种不同的初始起点,其中每个节点都能被策略网络选取.实验结果显示多重轨迹的构造可以防止陷入局部最优,能更有效地寻求最短路径,行为网络通过蒙特卡洛方法(Monte Carlo method)采样种不同初始起点的轨迹,其中,每个轨迹被定义为(M为节点个数):
下一个解码阶段,类似Kool et al[19],引入上下文节点,经过多重起点随机选择初始节点后,加入遮掩技术(访问过的节点不能再次被访问),有效计算编码后节点的注意力分配,以较大概率输出下一个访问的城市节点.图3展示了最优路径的构造过程.具体地,通过水平拼接操作将编码层的图嵌入、初始节点、先前节点聚合成一个三维向量,记作,描述为:
近年来基于DRL的方法已在COP问题中取得较好的成果,同时也看到,这些方法大多还需结合一些传统的运筹优化方法,如贪婪(Greedy),每次选取输出概率最高的节点(最优的解);波束搜索(Beam Search),宽度受限广度优先搜索的方式;采样(Sampling),采样一定数量的解,取最优的解[4].TSP问题经过模型训练的整体框架如图4所示,模型训练后得到的序列向量,经上述方法推理改善后,其最优间隙能显著降低,进一步提高解的质量.Kwon et al[5]提出一种八距离扩大的推理方法,由于模拟实验的坐标有对称性,本文采用四距离扩大的方法,即将所有节点坐标转换为三种形式,并在3.2的实验结果对比中放置单路径搜索、全路径搜索、八距离扩大三种推理方式.3.3给出了POMO模型推理方法的消融实验(Ablation Experiment),结果显示推理方法有效.
分配每个节点(N)作为一个初始节点,以N种轨迹高效寻找二维欧几里得空间中TSP20,TSP50,TSP100的最短路径问题.首先通过目前最先进的专业求解工具Concorde[9]和Gurobi[8]计算获得TSP问题的最优解作为其他模型计算最优间隙的基准;其次,对比近年来基于DRL方法求解TSP问题的模型;最后放置本文模型的优化效果.表1针对TSP问题对比了本文的模型和其他模型的优化效果,但没有比较Vinyals,Bello,Nazari,Dai,Deudon[13-16,18]的相关模型,因为已经被Kool et al[19]的注意力机制模型超越.表中的黑体字表示本文模型优于目前基于DRL的方法,表示节点坐标变换为原来的n种形式.由表可见,本文模型在推理阶段的求解时间比部分传统算法更快,与目前基于DRL的方法相当.图5对比了Christofides算法[10]、2⁃opt等传统方法和POMO框架、图指针网络(Graph Pointer Network,GPN)[27]、PN网络、NCO模型、S2V⁃DQN模型等经典模型与本文模型的最优间隙.四距离扩大的推理方法使20⁃TSP的最优间隙达到0.00%(越低效果越好),50⁃TSP的最优间隙达到0.01%,100⁃TSP的最优间隙达到0.09%,均优于目前基于DRL的方法.
Table 1
表1
表1不同模型在TSP问题上的优化结果比较
Table 1 Optimization results for TSP problem by different models
Learning heuristics for the TSP by policy gradient
∥Proceedings of the 15th International Conference on the Integration of Constraint Programming,Artificial Intelligence and Operations Research. Springer Berlin Heidelberg,2018:170-181.
... 近年来基于DRL的方法已在COP问题中取得较好的成果,同时也看到,这些方法大多还需结合一些传统的运筹优化方法,如贪婪(Greedy),每次选取输出概率最高的节点(最优的解);波束搜索(Beam Search),宽度受限广度优先搜索的方式;采样(Sampling),采样一定数量的解,取最优的解[4].TSP问题经过模型训练的整体框架如图4所示,模型训练后得到的序列向量,经上述方法推理改善后,其最优间隙能显著降低,进一步提高解的质量.Kwon et al[5]提出一种八距离扩大的推理方法,由于模拟实验的坐标有对称性,本文采用四距离扩大的方法,即将所有节点坐标转换为三种形式,并在3.2的实验结果对比中放置单路径搜索、全路径搜索、八距离扩大三种推理方式.3.3给出了POMO模型推理方法的消融实验(Ablation Experiment),结果显示推理方法有效. ...
POMO:Policy optimization with multiple optima for reinforcement learning
8
2020
... 随着深度强化学习(Deep Reinforcement Learning,DRL)在决策问题中的广泛应用,基于DRL的组合最优化问题(Combinatorial Optimization Problem,COP)求解方法不断被提出[4],该方法主要以端到端的形式输出解,大部分模型都基于编码解码的结构,即通过DRL算法训练建立的模型得到一种向目标解中自动添加点和边集的策略,直到构造出完整的解.此方法减轻了对特定问题和特定领域的知识依赖程度,为求解COP问题提供一种全新的思路.Kwon et al[5]提出一种多目标最优策略优化(Policy Optimization With Multiple Optima,POMO)框架,以纯数据驱动的方式,利用DRL结合Transformer架构[6]求解TSP等COP问题,实验结果证实了模型的有效性.本文受DRL中智能体可以与环境不断交互学习策略[7]和POMO框架的启发,提出一种基于DRL训练图注意力模型的框架求解TSP问题. ...
... TSP问题的策略(式(2))以为起点与中任意起点得到的解是等价的,如果轨迹是一个最优解,那么轨迹也是一个最优解.图2展示了四个节点的多重选择.先前工作[14-20]只考虑单一最优路径,而本文类似Kwon et al[5],采用种不同的点序列表征最优解,模型在编码、解码、推理阶段均放置种不同的初始起点,其中每个节点都能被策略网络选取.实验结果显示多重轨迹的构造可以防止陷入局部最优,能更有效地寻求最短路径,行为网络通过蒙特卡洛方法(Monte Carlo method)采样种不同初始起点的轨迹,其中,每个轨迹被定义为(M为节点个数): ...
... 近年来基于DRL的方法已在COP问题中取得较好的成果,同时也看到,这些方法大多还需结合一些传统的运筹优化方法,如贪婪(Greedy),每次选取输出概率最高的节点(最优的解);波束搜索(Beam Search),宽度受限广度优先搜索的方式;采样(Sampling),采样一定数量的解,取最优的解[4].TSP问题经过模型训练的整体框架如图4所示,模型训练后得到的序列向量,经上述方法推理改善后,其最优间隙能显著降低,进一步提高解的质量.Kwon et al[5]提出一种八距离扩大的推理方法,由于模拟实验的坐标有对称性,本文采用四距离扩大的方法,即将所有节点坐标转换为三种形式,并在3.2的实验结果对比中放置单路径搜索、全路径搜索、八距离扩大三种推理方式.3.3给出了POMO模型推理方法的消融实验(Ablation Experiment),结果显示推理方法有效. ...
... Optimization results for TSP problem by different modelsTable 1
模型
20⁃TSP
50⁃TSP
100⁃TSP
花费
间隙
时间
花费
间隙
时间
花费
间隙
时间
Concorde[9]
3.83
0.00%
5 min
5.69
0.00%
13 min
7.76
0.00%
1 h
Gurobi[8]
3.83
0.00%
7 s
5.69
0.00%
2 min
7.76
0.00%
17 min
OR⁃Tools
3.86
0.94%
1 min
5.85
2.87%
5 min
8.06
3.86%
23 min
LKH3[12]
3.83
0.00%
42 s
5.69
0.00%
6 min
7.76
0.00%
25 min
2⁃opt [1]
3.95
3.13%
1 s
6.11
7.38%
7 s
8.50
9.53%
33 s
Farthest Insertion[11]
3.89
1.56%
1 s
5.97
4.92%
2 s
8.34
7.47%
10 s
Nearest Neighbor[1]
4.48
16.9%
1 s
6.94
21.9%
3 s
9.68
24.7%
7 s
Kool et al(Greedy)[19]
3.85
0.34%
≪1 s
5.80
1.76%
2 s
8.12
4.53%
6 s
Kool et al(Sampling)[19]
3.84
0.08%
5 min
5.73
0.52%
24 min
7.94
2.26%
1 h
Costa et al[17]
3.83
0.00%
15 min
5.71
0.12%
29 min
7.83
0.87%
41 min
Wu et al[22]
3.83
0.00%
1 h
5.70
0.20%
1.5 h
7.87
1.42%
2 h
Kwon et al(single trajec)[5]
3.83
0.12%
≪1 s
5.74
1.03%
3 s
7.84
1.12%
8 s
Kwon et al(no augment)[5]
3.83
0.04%
≪1 s
5.71
0.35%
10 s
7.79
0.50%
54 s
Kwon et al(8×augment)[5]
3.83
0.00%
16 s
5.69
0.05%
1 min
7.77
0.14%
7 min
Ours (single trajec)
3.83
0.13%
≪1 s
5.73
0.70%
5 s
7.84
1.08%
8 s
Ours (no augment)
3.83
0.05%
≪1 s
5.70
0.28%
10 s
7.79
0.47%
55 s
Ours (8×augment)
3.83
0.00%
17 s
5.69
0.03%
1 min
7.77
0.12%
7 min
Ours (4×augment)
3.83
0.00%
9 s
5.69
0.01%
42 s
7.76
0.09%
3 min
经典模型最优间隙的对比图
Comparison diagram of optimal gap in classical modelsFig.53.3 消融实验
... 随着深度强化学习(Deep Reinforcement Learning,DRL)在决策问题中的广泛应用,基于DRL的组合最优化问题(Combinatorial Optimization Problem,COP)求解方法不断被提出[4],该方法主要以端到端的形式输出解,大部分模型都基于编码解码的结构,即通过DRL算法训练建立的模型得到一种向目标解中自动添加点和边集的策略,直到构造出完整的解.此方法减轻了对特定问题和特定领域的知识依赖程度,为求解COP问题提供一种全新的思路.Kwon et al[5]提出一种多目标最优策略优化(Policy Optimization With Multiple Optima,POMO)框架,以纯数据驱动的方式,利用DRL结合Transformer架构[6]求解TSP等COP问题,实验结果证实了模型的有效性.本文受DRL中智能体可以与环境不断交互学习策略[7]和POMO框架的启发,提出一种基于DRL训练图注意力模型的框架求解TSP问题. ...
... 图的特殊结构可以承载更多的节点信息,因此可以通过低维的向量信息来表征图的节点及拓扑结构,这种方法可以很好地处理非欧几里得数据,让网络模型容易学习到有效的特征信息.鉴于此,2017年Dai et al[18]将DRL和GNN结合,提出S2V⁃DQN模型,求解大规模TSP问题.2019年Kool et al[19]基于Transformer结构[6],采用多重注意力机制(Multi Head Attention,MHA)的自注意力机制计算方法提取深层节点的特征信息,有效防止了节点信息的丢失,该模型与PN网络相比,泛化能力更好,训练速度更快.2019年Chen and Tian[20]提出NeuRewriter架构,通过DRL训练模型,以迭代的方式不断改进CVRP问题的解直到收敛.2020年Li et al[21]提出一种基于DRL解决多目标COP问题的框架(DRL⁃MOA),在PN网络中融入分解策略和邻居多参数传递策略,有效求解TSP问题.2021年Wu et al[22]提出一种直接策略的方法,通过self⁃注意力机制参数化策略模型,在模型训练阶段即可得到TSP和CVRP问题的解.2021年Xin et al[23]提出多重解码注意力模型(MDAM),求解多目标路径问题,并在编码中加入Embedding Glimpse层,提升了模型整体优化性能. ...
... TSP问题的策略(式(2))以为起点与中任意起点得到的解是等价的,如果轨迹是一个最优解,那么轨迹也是一个最优解.图2展示了四个节点的多重选择.先前工作[14-20]只考虑单一最优路径,而本文类似Kwon et al[5],采用种不同的点序列表征最优解,模型在编码、解码、推理阶段均放置种不同的初始起点,其中每个节点都能被策略网络选取.实验结果显示多重轨迹的构造可以防止陷入局部最优,能更有效地寻求最短路径,行为网络通过蒙特卡洛方法(Monte Carlo method)采样种不同初始起点的轨迹,其中,每个轨迹被定义为(M为节点个数): ...
Learning heuristics for the TSP by policy gradient
1
2018
... 2015年Vinyals et al[13]针对Seq2Seq序列模型以固定的维度输入和输出,对其进行改进,提出指针网络(Pointer Network,PN)架构.此架构为基于机器学习(Machine Learning,ML)等新方法求解COP问题的工作奠定了很好的理论基础,之后的很多工作都基于此框架展开研究.监督学习(Supervised Learning,SL)的训练过程需要大量标签,TSP问题的高质量标签不易获得,2016年Bello et al[14]将NN和DRL算法结合,提出神经组合最优化(Neural Combinatorial Optimization,NCO)模型,采用REINFORCE算法训练PN网络,克服了对COP问题数据标签的依赖,扩大了TSP的求解范围.2018年Deudon et al[15]改进NCO模型,设计新的评判网络基准,推理阶段加入2⁃opt操作提高解的质量.2018年Nazari et al[16]将PN结构拓展成能够处理动态信息的COP模型,具体采用卷积神经网络(Convolutional Neural Network,CNN)替代编码层的长短期记忆网络(Long Short⁃Term Memory,LSTM),有效求解带容量的车辆路径问题(Capacitated Vehicle Routing Problem, CVRP).2020年Costa et al[17]提出基于DRL学习2⁃opt操作的局部搜索启发式算法,使模型更容易拓展到更一般情形的k⁃opt操作,提升了TSP问题的求解质量. ...
Reinforcement learning for solving the vehicle routing problem
2
2018
... 2015年Vinyals et al[13]针对Seq2Seq序列模型以固定的维度输入和输出,对其进行改进,提出指针网络(Pointer Network,PN)架构.此架构为基于机器学习(Machine Learning,ML)等新方法求解COP问题的工作奠定了很好的理论基础,之后的很多工作都基于此框架展开研究.监督学习(Supervised Learning,SL)的训练过程需要大量标签,TSP问题的高质量标签不易获得,2016年Bello et al[14]将NN和DRL算法结合,提出神经组合最优化(Neural Combinatorial Optimization,NCO)模型,采用REINFORCE算法训练PN网络,克服了对COP问题数据标签的依赖,扩大了TSP的求解范围.2018年Deudon et al[15]改进NCO模型,设计新的评判网络基准,推理阶段加入2⁃opt操作提高解的质量.2018年Nazari et al[16]将PN结构拓展成能够处理动态信息的COP模型,具体采用卷积神经网络(Convolutional Neural Network,CNN)替代编码层的长短期记忆网络(Long Short⁃Term Memory,LSTM),有效求解带容量的车辆路径问题(Capacitated Vehicle Routing Problem, CVRP).2020年Costa et al[17]提出基于DRL学习2⁃opt操作的局部搜索启发式算法,使模型更容易拓展到更一般情形的k⁃opt操作,提升了TSP问题的求解质量. ...
... 分配每个节点(N)作为一个初始节点,以N种轨迹高效寻找二维欧几里得空间中TSP20,TSP50,TSP100的最短路径问题.首先通过目前最先进的专业求解工具Concorde[9]和Gurobi[8]计算获得TSP问题的最优解作为其他模型计算最优间隙的基准;其次,对比近年来基于DRL方法求解TSP问题的模型;最后放置本文模型的优化效果.表1针对TSP问题对比了本文的模型和其他模型的优化效果,但没有比较Vinyals,Bello,Nazari,Dai,Deudon[13-16,18]的相关模型,因为已经被Kool et al[19]的注意力机制模型超越.表中的黑体字表示本文模型优于目前基于DRL的方法,表示节点坐标变换为原来的n种形式.由表可见,本文模型在推理阶段的求解时间比部分传统算法更快,与目前基于DRL的方法相当.图5对比了Christofides算法[10]、2⁃opt等传统方法和POMO框架、图指针网络(Graph Pointer Network,GPN)[27]、PN网络、NCO模型、S2V⁃DQN模型等经典模型与本文模型的最优间隙.四距离扩大的推理方法使20⁃TSP的最优间隙达到0.00%(越低效果越好),50⁃TSP的最优间隙达到0.01%,100⁃TSP的最优间隙达到0.09%,均优于目前基于DRL的方法. ...
Learning 2?opt heuristics for the traveling salesman problem via deep reinforcement learning
2
2020
... 2015年Vinyals et al[13]针对Seq2Seq序列模型以固定的维度输入和输出,对其进行改进,提出指针网络(Pointer Network,PN)架构.此架构为基于机器学习(Machine Learning,ML)等新方法求解COP问题的工作奠定了很好的理论基础,之后的很多工作都基于此框架展开研究.监督学习(Supervised Learning,SL)的训练过程需要大量标签,TSP问题的高质量标签不易获得,2016年Bello et al[14]将NN和DRL算法结合,提出神经组合最优化(Neural Combinatorial Optimization,NCO)模型,采用REINFORCE算法训练PN网络,克服了对COP问题数据标签的依赖,扩大了TSP的求解范围.2018年Deudon et al[15]改进NCO模型,设计新的评判网络基准,推理阶段加入2⁃opt操作提高解的质量.2018年Nazari et al[16]将PN结构拓展成能够处理动态信息的COP模型,具体采用卷积神经网络(Convolutional Neural Network,CNN)替代编码层的长短期记忆网络(Long Short⁃Term Memory,LSTM),有效求解带容量的车辆路径问题(Capacitated Vehicle Routing Problem, CVRP).2020年Costa et al[17]提出基于DRL学习2⁃opt操作的局部搜索启发式算法,使模型更容易拓展到更一般情形的k⁃opt操作,提升了TSP问题的求解质量. ...
... Optimization results for TSP problem by different modelsTable 1
模型
20⁃TSP
50⁃TSP
100⁃TSP
花费
间隙
时间
花费
间隙
时间
花费
间隙
时间
Concorde[9]
3.83
0.00%
5 min
5.69
0.00%
13 min
7.76
0.00%
1 h
Gurobi[8]
3.83
0.00%
7 s
5.69
0.00%
2 min
7.76
0.00%
17 min
OR⁃Tools
3.86
0.94%
1 min
5.85
2.87%
5 min
8.06
3.86%
23 min
LKH3[12]
3.83
0.00%
42 s
5.69
0.00%
6 min
7.76
0.00%
25 min
2⁃opt [1]
3.95
3.13%
1 s
6.11
7.38%
7 s
8.50
9.53%
33 s
Farthest Insertion[11]
3.89
1.56%
1 s
5.97
4.92%
2 s
8.34
7.47%
10 s
Nearest Neighbor[1]
4.48
16.9%
1 s
6.94
21.9%
3 s
9.68
24.7%
7 s
Kool et al(Greedy)[19]
3.85
0.34%
≪1 s
5.80
1.76%
2 s
8.12
4.53%
6 s
Kool et al(Sampling)[19]
3.84
0.08%
5 min
5.73
0.52%
24 min
7.94
2.26%
1 h
Costa et al[17]
3.83
0.00%
15 min
5.71
0.12%
29 min
7.83
0.87%
41 min
Wu et al[22]
3.83
0.00%
1 h
5.70
0.20%
1.5 h
7.87
1.42%
2 h
Kwon et al(single trajec)[5]
3.83
0.12%
≪1 s
5.74
1.03%
3 s
7.84
1.12%
8 s
Kwon et al(no augment)[5]
3.83
0.04%
≪1 s
5.71
0.35%
10 s
7.79
0.50%
54 s
Kwon et al(8×augment)[5]
3.83
0.00%
16 s
5.69
0.05%
1 min
7.77
0.14%
7 min
Ours (single trajec)
3.83
0.13%
≪1 s
5.73
0.70%
5 s
7.84
1.08%
8 s
Ours (no augment)
3.83
0.05%
≪1 s
5.70
0.28%
10 s
7.79
0.47%
55 s
Ours (8×augment)
3.83
0.00%
17 s
5.69
0.03%
1 min
7.77
0.12%
7 min
Ours (4×augment)
3.83
0.00%
9 s
5.69
0.01%
42 s
7.76
0.09%
3 min
经典模型最优间隙的对比图
Comparison diagram of optimal gap in classical modelsFig.53.3 消融实验
Learning combinatorial optimization algorithms over graphs
2
2017
... 图的特殊结构可以承载更多的节点信息,因此可以通过低维的向量信息来表征图的节点及拓扑结构,这种方法可以很好地处理非欧几里得数据,让网络模型容易学习到有效的特征信息.鉴于此,2017年Dai et al[18]将DRL和GNN结合,提出S2V⁃DQN模型,求解大规模TSP问题.2019年Kool et al[19]基于Transformer结构[6],采用多重注意力机制(Multi Head Attention,MHA)的自注意力机制计算方法提取深层节点的特征信息,有效防止了节点信息的丢失,该模型与PN网络相比,泛化能力更好,训练速度更快.2019年Chen and Tian[20]提出NeuRewriter架构,通过DRL训练模型,以迭代的方式不断改进CVRP问题的解直到收敛.2020年Li et al[21]提出一种基于DRL解决多目标COP问题的框架(DRL⁃MOA),在PN网络中融入分解策略和邻居多参数传递策略,有效求解TSP问题.2021年Wu et al[22]提出一种直接策略的方法,通过self⁃注意力机制参数化策略模型,在模型训练阶段即可得到TSP和CVRP问题的解.2021年Xin et al[23]提出多重解码注意力模型(MDAM),求解多目标路径问题,并在编码中加入Embedding Glimpse层,提升了模型整体优化性能. ...
... 分配每个节点(N)作为一个初始节点,以N种轨迹高效寻找二维欧几里得空间中TSP20,TSP50,TSP100的最短路径问题.首先通过目前最先进的专业求解工具Concorde[9]和Gurobi[8]计算获得TSP问题的最优解作为其他模型计算最优间隙的基准;其次,对比近年来基于DRL方法求解TSP问题的模型;最后放置本文模型的优化效果.表1针对TSP问题对比了本文的模型和其他模型的优化效果,但没有比较Vinyals,Bello,Nazari,Dai,Deudon[13-16,18]的相关模型,因为已经被Kool et al[19]的注意力机制模型超越.表中的黑体字表示本文模型优于目前基于DRL的方法,表示节点坐标变换为原来的n种形式.由表可见,本文模型在推理阶段的求解时间比部分传统算法更快,与目前基于DRL的方法相当.图5对比了Christofides算法[10]、2⁃opt等传统方法和POMO框架、图指针网络(Graph Pointer Network,GPN)[27]、PN网络、NCO模型、S2V⁃DQN模型等经典模型与本文模型的最优间隙.四距离扩大的推理方法使20⁃TSP的最优间隙达到0.00%(越低效果越好),50⁃TSP的最优间隙达到0.01%,100⁃TSP的最优间隙达到0.09%,均优于目前基于DRL的方法. ...
5
2019
... 图的特殊结构可以承载更多的节点信息,因此可以通过低维的向量信息来表征图的节点及拓扑结构,这种方法可以很好地处理非欧几里得数据,让网络模型容易学习到有效的特征信息.鉴于此,2017年Dai et al[18]将DRL和GNN结合,提出S2V⁃DQN模型,求解大规模TSP问题.2019年Kool et al[19]基于Transformer结构[6],采用多重注意力机制(Multi Head Attention,MHA)的自注意力机制计算方法提取深层节点的特征信息,有效防止了节点信息的丢失,该模型与PN网络相比,泛化能力更好,训练速度更快.2019年Chen and Tian[20]提出NeuRewriter架构,通过DRL训练模型,以迭代的方式不断改进CVRP问题的解直到收敛.2020年Li et al[21]提出一种基于DRL解决多目标COP问题的框架(DRL⁃MOA),在PN网络中融入分解策略和邻居多参数传递策略,有效求解TSP问题.2021年Wu et al[22]提出一种直接策略的方法,通过self⁃注意力机制参数化策略模型,在模型训练阶段即可得到TSP和CVRP问题的解.2021年Xin et al[23]提出多重解码注意力模型(MDAM),求解多目标路径问题,并在编码中加入Embedding Glimpse层,提升了模型整体优化性能. ...
... 下一个解码阶段,类似Kool et al[19],引入上下文节点,经过多重起点随机选择初始节点后,加入遮掩技术(访问过的节点不能再次被访问),有效计算编码后节点的注意力分配,以较大概率输出下一个访问的城市节点.图3展示了最优路径的构造过程.具体地,通过水平拼接操作将编码层的图嵌入、初始节点、先前节点聚合成一个三维向量,记作,描述为: ...
... 分配每个节点(N)作为一个初始节点,以N种轨迹高效寻找二维欧几里得空间中TSP20,TSP50,TSP100的最短路径问题.首先通过目前最先进的专业求解工具Concorde[9]和Gurobi[8]计算获得TSP问题的最优解作为其他模型计算最优间隙的基准;其次,对比近年来基于DRL方法求解TSP问题的模型;最后放置本文模型的优化效果.表1针对TSP问题对比了本文的模型和其他模型的优化效果,但没有比较Vinyals,Bello,Nazari,Dai,Deudon[13-16,18]的相关模型,因为已经被Kool et al[19]的注意力机制模型超越.表中的黑体字表示本文模型优于目前基于DRL的方法,表示节点坐标变换为原来的n种形式.由表可见,本文模型在推理阶段的求解时间比部分传统算法更快,与目前基于DRL的方法相当.图5对比了Christofides算法[10]、2⁃opt等传统方法和POMO框架、图指针网络(Graph Pointer Network,GPN)[27]、PN网络、NCO模型、S2V⁃DQN模型等经典模型与本文模型的最优间隙.四距离扩大的推理方法使20⁃TSP的最优间隙达到0.00%(越低效果越好),50⁃TSP的最优间隙达到0.01%,100⁃TSP的最优间隙达到0.09%,均优于目前基于DRL的方法. ...
... Optimization results for TSP problem by different modelsTable 1
模型
20⁃TSP
50⁃TSP
100⁃TSP
花费
间隙
时间
花费
间隙
时间
花费
间隙
时间
Concorde[9]
3.83
0.00%
5 min
5.69
0.00%
13 min
7.76
0.00%
1 h
Gurobi[8]
3.83
0.00%
7 s
5.69
0.00%
2 min
7.76
0.00%
17 min
OR⁃Tools
3.86
0.94%
1 min
5.85
2.87%
5 min
8.06
3.86%
23 min
LKH3[12]
3.83
0.00%
42 s
5.69
0.00%
6 min
7.76
0.00%
25 min
2⁃opt [1]
3.95
3.13%
1 s
6.11
7.38%
7 s
8.50
9.53%
33 s
Farthest Insertion[11]
3.89
1.56%
1 s
5.97
4.92%
2 s
8.34
7.47%
10 s
Nearest Neighbor[1]
4.48
16.9%
1 s
6.94
21.9%
3 s
9.68
24.7%
7 s
Kool et al(Greedy)[19]
3.85
0.34%
≪1 s
5.80
1.76%
2 s
8.12
4.53%
6 s
Kool et al(Sampling)[19]
3.84
0.08%
5 min
5.73
0.52%
24 min
7.94
2.26%
1 h
Costa et al[17]
3.83
0.00%
15 min
5.71
0.12%
29 min
7.83
0.87%
41 min
Wu et al[22]
3.83
0.00%
1 h
5.70
0.20%
1.5 h
7.87
1.42%
2 h
Kwon et al(single trajec)[5]
3.83
0.12%
≪1 s
5.74
1.03%
3 s
7.84
1.12%
8 s
Kwon et al(no augment)[5]
3.83
0.04%
≪1 s
5.71
0.35%
10 s
7.79
0.50%
54 s
Kwon et al(8×augment)[5]
3.83
0.00%
16 s
5.69
0.05%
1 min
7.77
0.14%
7 min
Ours (single trajec)
3.83
0.13%
≪1 s
5.73
0.70%
5 s
7.84
1.08%
8 s
Ours (no augment)
3.83
0.05%
≪1 s
5.70
0.28%
10 s
7.79
0.47%
55 s
Ours (8×augment)
3.83
0.00%
17 s
5.69
0.03%
1 min
7.77
0.12%
7 min
Ours (4×augment)
3.83
0.00%
9 s
5.69
0.01%
42 s
7.76
0.09%
3 min
经典模型最优间隙的对比图
Comparison diagram of optimal gap in classical modelsFig.53.3 消融实验
Learning to perform local rewriting for combinatorial optimization
2
2019
... 图的特殊结构可以承载更多的节点信息,因此可以通过低维的向量信息来表征图的节点及拓扑结构,这种方法可以很好地处理非欧几里得数据,让网络模型容易学习到有效的特征信息.鉴于此,2017年Dai et al[18]将DRL和GNN结合,提出S2V⁃DQN模型,求解大规模TSP问题.2019年Kool et al[19]基于Transformer结构[6],采用多重注意力机制(Multi Head Attention,MHA)的自注意力机制计算方法提取深层节点的特征信息,有效防止了节点信息的丢失,该模型与PN网络相比,泛化能力更好,训练速度更快.2019年Chen and Tian[20]提出NeuRewriter架构,通过DRL训练模型,以迭代的方式不断改进CVRP问题的解直到收敛.2020年Li et al[21]提出一种基于DRL解决多目标COP问题的框架(DRL⁃MOA),在PN网络中融入分解策略和邻居多参数传递策略,有效求解TSP问题.2021年Wu et al[22]提出一种直接策略的方法,通过self⁃注意力机制参数化策略模型,在模型训练阶段即可得到TSP和CVRP问题的解.2021年Xin et al[23]提出多重解码注意力模型(MDAM),求解多目标路径问题,并在编码中加入Embedding Glimpse层,提升了模型整体优化性能. ...
... TSP问题的策略(式(2))以为起点与中任意起点得到的解是等价的,如果轨迹是一个最优解,那么轨迹也是一个最优解.图2展示了四个节点的多重选择.先前工作[14-20]只考虑单一最优路径,而本文类似Kwon et al[5],采用种不同的点序列表征最优解,模型在编码、解码、推理阶段均放置种不同的初始起点,其中每个节点都能被策略网络选取.实验结果显示多重轨迹的构造可以防止陷入局部最优,能更有效地寻求最短路径,行为网络通过蒙特卡洛方法(Monte Carlo method)采样种不同初始起点的轨迹,其中,每个轨迹被定义为(M为节点个数): ...
Deep reinforcement learning for multiobjective optimization
1
2020
... 图的特殊结构可以承载更多的节点信息,因此可以通过低维的向量信息来表征图的节点及拓扑结构,这种方法可以很好地处理非欧几里得数据,让网络模型容易学习到有效的特征信息.鉴于此,2017年Dai et al[18]将DRL和GNN结合,提出S2V⁃DQN模型,求解大规模TSP问题.2019年Kool et al[19]基于Transformer结构[6],采用多重注意力机制(Multi Head Attention,MHA)的自注意力机制计算方法提取深层节点的特征信息,有效防止了节点信息的丢失,该模型与PN网络相比,泛化能力更好,训练速度更快.2019年Chen and Tian[20]提出NeuRewriter架构,通过DRL训练模型,以迭代的方式不断改进CVRP问题的解直到收敛.2020年Li et al[21]提出一种基于DRL解决多目标COP问题的框架(DRL⁃MOA),在PN网络中融入分解策略和邻居多参数传递策略,有效求解TSP问题.2021年Wu et al[22]提出一种直接策略的方法,通过self⁃注意力机制参数化策略模型,在模型训练阶段即可得到TSP和CVRP问题的解.2021年Xin et al[23]提出多重解码注意力模型(MDAM),求解多目标路径问题,并在编码中加入Embedding Glimpse层,提升了模型整体优化性能. ...
Learning improvement heuristics for solving routing problems
2
2021
... 图的特殊结构可以承载更多的节点信息,因此可以通过低维的向量信息来表征图的节点及拓扑结构,这种方法可以很好地处理非欧几里得数据,让网络模型容易学习到有效的特征信息.鉴于此,2017年Dai et al[18]将DRL和GNN结合,提出S2V⁃DQN模型,求解大规模TSP问题.2019年Kool et al[19]基于Transformer结构[6],采用多重注意力机制(Multi Head Attention,MHA)的自注意力机制计算方法提取深层节点的特征信息,有效防止了节点信息的丢失,该模型与PN网络相比,泛化能力更好,训练速度更快.2019年Chen and Tian[20]提出NeuRewriter架构,通过DRL训练模型,以迭代的方式不断改进CVRP问题的解直到收敛.2020年Li et al[21]提出一种基于DRL解决多目标COP问题的框架(DRL⁃MOA),在PN网络中融入分解策略和邻居多参数传递策略,有效求解TSP问题.2021年Wu et al[22]提出一种直接策略的方法,通过self⁃注意力机制参数化策略模型,在模型训练阶段即可得到TSP和CVRP问题的解.2021年Xin et al[23]提出多重解码注意力模型(MDAM),求解多目标路径问题,并在编码中加入Embedding Glimpse层,提升了模型整体优化性能. ...
... Optimization results for TSP problem by different modelsTable 1
模型
20⁃TSP
50⁃TSP
100⁃TSP
花费
间隙
时间
花费
间隙
时间
花费
间隙
时间
Concorde[9]
3.83
0.00%
5 min
5.69
0.00%
13 min
7.76
0.00%
1 h
Gurobi[8]
3.83
0.00%
7 s
5.69
0.00%
2 min
7.76
0.00%
17 min
OR⁃Tools
3.86
0.94%
1 min
5.85
2.87%
5 min
8.06
3.86%
23 min
LKH3[12]
3.83
0.00%
42 s
5.69
0.00%
6 min
7.76
0.00%
25 min
2⁃opt [1]
3.95
3.13%
1 s
6.11
7.38%
7 s
8.50
9.53%
33 s
Farthest Insertion[11]
3.89
1.56%
1 s
5.97
4.92%
2 s
8.34
7.47%
10 s
Nearest Neighbor[1]
4.48
16.9%
1 s
6.94
21.9%
3 s
9.68
24.7%
7 s
Kool et al(Greedy)[19]
3.85
0.34%
≪1 s
5.80
1.76%
2 s
8.12
4.53%
6 s
Kool et al(Sampling)[19]
3.84
0.08%
5 min
5.73
0.52%
24 min
7.94
2.26%
1 h
Costa et al[17]
3.83
0.00%
15 min
5.71
0.12%
29 min
7.83
0.87%
41 min
Wu et al[22]
3.83
0.00%
1 h
5.70
0.20%
1.5 h
7.87
1.42%
2 h
Kwon et al(single trajec)[5]
3.83
0.12%
≪1 s
5.74
1.03%
3 s
7.84
1.12%
8 s
Kwon et al(no augment)[5]
3.83
0.04%
≪1 s
5.71
0.35%
10 s
7.79
0.50%
54 s
Kwon et al(8×augment)[5]
3.83
0.00%
16 s
5.69
0.05%
1 min
7.77
0.14%
7 min
Ours (single trajec)
3.83
0.13%
≪1 s
5.73
0.70%
5 s
7.84
1.08%
8 s
Ours (no augment)
3.83
0.05%
≪1 s
5.70
0.28%
10 s
7.79
0.47%
55 s
Ours (8×augment)
3.83
0.00%
17 s
5.69
0.03%
1 min
7.77
0.12%
7 min
Ours (4×augment)
3.83
0.00%
9 s
5.69
0.01%
42 s
7.76
0.09%
3 min
经典模型最优间隙的对比图
Comparison diagram of optimal gap in classical modelsFig.53.3 消融实验
Multi?decoder attention model with embedding glimpse for solving vehicle routing problems
1
... 图的特殊结构可以承载更多的节点信息,因此可以通过低维的向量信息来表征图的节点及拓扑结构,这种方法可以很好地处理非欧几里得数据,让网络模型容易学习到有效的特征信息.鉴于此,2017年Dai et al[18]将DRL和GNN结合,提出S2V⁃DQN模型,求解大规模TSP问题.2019年Kool et al[19]基于Transformer结构[6],采用多重注意力机制(Multi Head Attention,MHA)的自注意力机制计算方法提取深层节点的特征信息,有效防止了节点信息的丢失,该模型与PN网络相比,泛化能力更好,训练速度更快.2019年Chen and Tian[20]提出NeuRewriter架构,通过DRL训练模型,以迭代的方式不断改进CVRP问题的解直到收敛.2020年Li et al[21]提出一种基于DRL解决多目标COP问题的框架(DRL⁃MOA),在PN网络中融入分解策略和邻居多参数传递策略,有效求解TSP问题.2021年Wu et al[22]提出一种直接策略的方法,通过self⁃注意力机制参数化策略模型,在模型训练阶段即可得到TSP和CVRP问题的解.2021年Xin et al[23]提出多重解码注意力模型(MDAM),求解多目标路径问题,并在编码中加入Embedding Glimpse层,提升了模型整体优化性能. ...