邻域搜索算法的关键是邻域结构的选择,但每次迭代搜索的时间较长,缺少在解空间内自主搜索的能力.利用深度强化学习(DRL)模型对邻域搜索算法进行改进,设计了一个新的深度混合型邻域搜索(DHNS)模型来求解带容量的车辆路径问题(CVRP).首先,利用贪婪算法为DRL模型提供初始解;其次,采用指针网络以及Transformer混合编码,利用不同网络的优势,深层次地提取节点特征信息;最后,将修复算子的修复过程转至DHNS模型,自动完成邻域搜索修复解的过程,扩大解空间的自主搜索能力.同时,针对混合编码中复杂传输机制以及解码输出误导性信息的问题,进一步在编码和解码过程中添加AOA (Attention on Attention)机制.AOA负责筛选有价值的信息,过滤不相关或误导性信息,有效刻画了注意力结果和查询之间的相关性,并对节点间的关系进行建模.实验结果表明,DHNS模型在100规模CVRP的优化效果上,优于现有DRL模型和部分传统算法.采用CVRPlib数据集中的算例对该算法的效能进行验证,结果表明,采用DHNS模型能够极大地提升路径问题的优化效能.
关键词:深度混合型邻域搜索模型
;
深度强化学习
;
混合模型
;
AOA机制
Abstract
The key to the neighborhood search algorithm is the selection of neighborhood structure,but the search time of each iteration is long,and the ability to search autonomously in the solution space is lacking. In this paper,the deep reinforcement learning (DRL) model is used to improve the neighborhood search algorithm,and a new deep hybrid neighborhood search (DHNS) model is designed to solve the capacitated vehicle routing problem (CVRP). Firstly,the greedy algorithm is used to provide the initial solution for the DRL model. Secondly,the pointer network and Transformer hybrid encoder are used to take advantage of different networks to extract node feature information at a deep level. Finally,the repair process of the repair operator is transferred to the DHNS model,and the process of neighborhood search repair solution is automatically completed,expanding the ability to solution space for autonomous search. At the same time,aiming at the complex transmission mechanism in hybrid encoder and the problem of decoding misleading information,the AOA (Attention on Attention) mechanism is further added in the encoding and decoding process. AOA is responsible for screening valuable information,filtering out irrelevant or misleading information,effectively characterizing the correlation between attention results and queries,and modeling the relationship among nodes. Experimental results show that the DHNS model is superior to the existing DRL model and some traditional algorithms in the optimization effect of 100⁃scale CVRP. The efficiency of the algorithm is verified by using an example in the CVRPlib dataset,and the results show that the DHNS model greatly improve the optimization efficiency of the routing problem.
Keywords:deep hybrid neighborhood search
;
deep reinforcement learning
;
hybrid model
;
Attention on Attention
Yang Xiaoxiao, Chen Zhibin. Deep hybrid neighborhood search model solves the CVRP. Journal of nanjing University[J], 2023, 59(6): 1023-1033 doi:10.13232/j.cnki.jnju.2023.06.012
近年来,DRL成为一种解决路径问题的新方法,目前基于DRL求解VRP的框架主要是编码和解码结构,由Nazari et al[10]首次提出,强调路径问题与DRL的结合,这种编码⁃解码体系训练的模型效果与传统算法相比有很大的优势.在求解VRP的模型框架中,首先将问题转化为图,通过网络模型编码为带有节点信息的特征向量,然后通过解码器将其解码为城市输出序列.由于编码器⁃解码器的通用架构是循环神经网络(Recurrent Neural Network,RNN),但是RNN存在长距离依赖问题,会导致梯度消失和梯度爆炸.为了避免上述问题,Bresson and Laurent[11]提出一种基于Transformer模型的求解方法,在编码⁃解码中添加AM,为每个查询输出一个加权平均值,使模型能够关注更多有用的信息,有效缓解了梯度爆炸,降低计算成本.在此基础上,王扬和陈智斌[12]提出动态图Transformer (Dynamic Graph Transformer Model,DGTM)模型求解CVRP,并使用REINFORCE算法提高模型的训练效率,实验结果表明模型整体性能优于专业求解器,提高了CVRP问题求解速度,且具有较好的泛化性能.
为提高模型搜索效率,Kwon et al[13]提出一种具有多重策略优化(Policy Optimization with Multiple Optimal,POMO)的网络框架,使用DRL来训练MHA的多个初始节点嵌入,POMO的低方差基线使RL模型训练快速且稳定,且对局部最小值的抵抗力最高.实验结果表明模型性能显著提高,同时模型推理时间减少一个数量级以上.为提升智能体的选择效率,Wu et al[14]通过DRL框架改进启发式算法来求解CVRP,其中策略网络用于指导下一个解决方案的选择,并利用行动者⁃评论家(Actor⁃critic,AC)算法训练策略网络,然后通过启发式算法来提高解的质量,该模型学习到的策略明显优于传统的手工规则.
启发式算法通常需要改进其在解空间内的搜索能力,因此王原等[15]利用深度智慧型蚁群优化算法(Deep Intelligent Ant Colony Optimization,DIACO)求解TSP,DRL结合蚁群算法提高了DRL在解空间内的搜索能力以及蚁群算法的计算能力.此外,Ma et al[16]提出双方面协作Transformer (Dual⁃Aspect Collaborative Transformer,DACT)模型来解决具有动态和周期性变化的CVRP,使用双向编码器分别学习节点和位置特征的嵌入,同时使用课程学习训练模型,提高模型的采样速率.实验结果表明,DACT优于传统的启发式算法,且具有更优的泛化性能.
为了缩小基于DRL的方法与最先进优化方法之间的性能差距,Hottung and Tierney[17]提出了一种新颖的神经邻域搜索(Neural Large Neighborhood Search,NLNS)框架,该框架集成启发式算法以生成新的解决方案,学习机制基于具有AM的神经网络,并设计结合到大型邻域搜索设置中.实验结果表明,该模型明显优于仅使用手工启发式算法和著名的启发式算法,并接近于最先进的优化方法的性能.但上述方法仅考虑小规模CVRP,当问题规模变大时,优化效果不理想.
MHA首先计算了,的注意分布,并将其附加到上,此步骤准确地捕获输入序列的特征信息.然后计算和的相似度并归一化,根据相似度和相应的值加权和获得最终的注意值,此步骤通过在全局特征中分配不同的权重给不同的特征向量以提取局部特征,同时生成包括全局和局部特征在内的联合特征向量序列.根据Huang et al[7]研究使用缩放点积方法计算MHA中的权重可以有效地解决梯度消失问题,因此使用如下表达式来计算权重向量:
模型采用AC算法进行训练,通过随机策略学习行为网络的参数,行为网络基于概率分布做动作,评判网络基于行为网络生成的行为评判得分,行为网络再根据评判网络的评分调整行为选择的概率.解决VRP问题的传统策略梯度算法的主要缺点是高维离散空间中不同路径之间的方差大,训练不稳定,但AC算法可以单步更新,不需要完成整个动作再更新网络参数.传统策略梯度方法对价值的估计虽然是无偏的,但方差较大,AC算法能够有效降低方差.为了保证策略梯度方差的稳定性,类似于Nazari et al[10],本文使用评判网络为修复解生成一个值作为评判网络估算修复的成本,评判网络根据行为网络状态预测奖励值,并以预测奖励值和实际奖励值之间的均值误差作为优化目标.
本文成功地将DHNS模型从训练模型推广到现实世界的数据集.表2是真实数据集CVRPlib上的22个实例的实验结果,表中黑体字表示结果最优.由表可见,平均差距进一步缩小到2.89%,证明其差距优于AM,POMO,Wu et al,DACT和OR⁃Tools.在混合随机和群集类型以及大多数随机类型的实例上,DHNS的性能也优于其他基准.鉴于其优势,DHNS在各种大小和分布的CVRPlib基准实例上的泛化性能方面优于现有的基于DRL的模型.
Table 2
表2
表2模型在CVRPlib基准数据集上的实验结果
Table 2 Experimental results of the model on the CVRPlib benchmark dataset
... 现实中很多问题本质上是组合优化问题,因此,人们一直在修改ALNS来有效地求解组合优化问题,例如CVRP问题.针对上述问题,本文提出深度混合型邻域搜索(Deep Hybrid Neighborhood Search,DHNS)算法模型,即带有DRL的ALNS算法的修复解的更新,同时,将AOA (Attention on Attention)[7]加入编码和解码过程.在编码过程中,AOA可以提取节点的特征,并对节点间的关系进行建模;在解码过程中,AOA负责筛选有价值的信息,过滤不相关或误导性信息,进一步确定注意力结果和查询之间的相关性.实验结果表明AOA模块对于改善模型性能是有效的,优于之前基于DRL的所有模型. ...
... MHA首先计算了,的注意分布,并将其附加到上,此步骤准确地捕获输入序列的特征信息.然后计算和的相似度并归一化,根据相似度和相应的值加权和获得最终的注意值,此步骤通过在全局特征中分配不同的权重给不同的特征向量以提取局部特征,同时生成包括全局和局部特征在内的联合特征向量序列.根据Huang et al[7]研究使用缩放点积方法计算MHA中的权重可以有效地解决梯度消失问题,因此使用如下表达式来计算权重向量: ...
Reinforcement learning for solving the vehicle routing problem
2
2018
... 近年来,DRL成为一种解决路径问题的新方法,目前基于DRL求解VRP的框架主要是编码和解码结构,由Nazari et al[10]首次提出,强调路径问题与DRL的结合,这种编码⁃解码体系训练的模型效果与传统算法相比有很大的优势.在求解VRP的模型框架中,首先将问题转化为图,通过网络模型编码为带有节点信息的特征向量,然后通过解码器将其解码为城市输出序列.由于编码器⁃解码器的通用架构是循环神经网络(Recurrent Neural Network,RNN),但是RNN存在长距离依赖问题,会导致梯度消失和梯度爆炸.为了避免上述问题,Bresson and Laurent[11]提出一种基于Transformer模型的求解方法,在编码⁃解码中添加AM,为每个查询输出一个加权平均值,使模型能够关注更多有用的信息,有效缓解了梯度爆炸,降低计算成本.在此基础上,王扬和陈智斌[12]提出动态图Transformer (Dynamic Graph Transformer Model,DGTM)模型求解CVRP,并使用REINFORCE算法提高模型的训练效率,实验结果表明模型整体性能优于专业求解器,提高了CVRP问题求解速度,且具有较好的泛化性能. ...
... 模型采用AC算法进行训练,通过随机策略学习行为网络的参数,行为网络基于概率分布做动作,评判网络基于行为网络生成的行为评判得分,行为网络再根据评判网络的评分调整行为选择的概率.解决VRP问题的传统策略梯度算法的主要缺点是高维离散空间中不同路径之间的方差大,训练不稳定,但AC算法可以单步更新,不需要完成整个动作再更新网络参数.传统策略梯度方法对价值的估计虽然是无偏的,但方差较大,AC算法能够有效降低方差.为了保证策略梯度方差的稳定性,类似于Nazari et al[10],本文使用评判网络为修复解生成一个值作为评判网络估算修复的成本,评判网络根据行为网络状态预测奖励值,并以预测奖励值和实际奖励值之间的均值误差作为优化目标. ...
The transformer network for the traveling salesman problem
1
2021
... 近年来,DRL成为一种解决路径问题的新方法,目前基于DRL求解VRP的框架主要是编码和解码结构,由Nazari et al[10]首次提出,强调路径问题与DRL的结合,这种编码⁃解码体系训练的模型效果与传统算法相比有很大的优势.在求解VRP的模型框架中,首先将问题转化为图,通过网络模型编码为带有节点信息的特征向量,然后通过解码器将其解码为城市输出序列.由于编码器⁃解码器的通用架构是循环神经网络(Recurrent Neural Network,RNN),但是RNN存在长距离依赖问题,会导致梯度消失和梯度爆炸.为了避免上述问题,Bresson and Laurent[11]提出一种基于Transformer模型的求解方法,在编码⁃解码中添加AM,为每个查询输出一个加权平均值,使模型能够关注更多有用的信息,有效缓解了梯度爆炸,降低计算成本.在此基础上,王扬和陈智斌[12]提出动态图Transformer (Dynamic Graph Transformer Model,DGTM)模型求解CVRP,并使用REINFORCE算法提高模型的训练效率,实验结果表明模型整体性能优于专业求解器,提高了CVRP问题求解速度,且具有较好的泛化性能. ...
一种求解CVRP的动态图转换模型
2
2023
... 近年来,DRL成为一种解决路径问题的新方法,目前基于DRL求解VRP的框架主要是编码和解码结构,由Nazari et al[10]首次提出,强调路径问题与DRL的结合,这种编码⁃解码体系训练的模型效果与传统算法相比有很大的优势.在求解VRP的模型框架中,首先将问题转化为图,通过网络模型编码为带有节点信息的特征向量,然后通过解码器将其解码为城市输出序列.由于编码器⁃解码器的通用架构是循环神经网络(Recurrent Neural Network,RNN),但是RNN存在长距离依赖问题,会导致梯度消失和梯度爆炸.为了避免上述问题,Bresson and Laurent[11]提出一种基于Transformer模型的求解方法,在编码⁃解码中添加AM,为每个查询输出一个加权平均值,使模型能够关注更多有用的信息,有效缓解了梯度爆炸,降低计算成本.在此基础上,王扬和陈智斌[12]提出动态图Transformer (Dynamic Graph Transformer Model,DGTM)模型求解CVRP,并使用REINFORCE算法提高模型的训练效率,实验结果表明模型整体性能优于专业求解器,提高了CVRP问题求解速度,且具有较好的泛化性能. ...
Pomo:Policy optimization with multiple optima for reinforcement learning
2
2020
... 为提高模型搜索效率,Kwon et al[13]提出一种具有多重策略优化(Policy Optimization with Multiple Optimal,POMO)的网络框架,使用DRL来训练MHA的多个初始节点嵌入,POMO的低方差基线使RL模型训练快速且稳定,且对局部最小值的抵抗力最高.实验结果表明模型性能显著提高,同时模型推理时间减少一个数量级以上.为提升智能体的选择效率,Wu et al[14]通过DRL框架改进启发式算法来求解CVRP,其中策略网络用于指导下一个解决方案的选择,并利用行动者⁃评论家(Actor⁃critic,AC)算法训练策略网络,然后通过启发式算法来提高解的质量,该模型学习到的策略明显优于传统的手工规则. ...
Learning improvement heuristics for solving routing problems
1
2022
... 为提高模型搜索效率,Kwon et al[13]提出一种具有多重策略优化(Policy Optimization with Multiple Optimal,POMO)的网络框架,使用DRL来训练MHA的多个初始节点嵌入,POMO的低方差基线使RL模型训练快速且稳定,且对局部最小值的抵抗力最高.实验结果表明模型性能显著提高,同时模型推理时间减少一个数量级以上.为提升智能体的选择效率,Wu et al[14]通过DRL框架改进启发式算法来求解CVRP,其中策略网络用于指导下一个解决方案的选择,并利用行动者⁃评论家(Actor⁃critic,AC)算法训练策略网络,然后通过启发式算法来提高解的质量,该模型学习到的策略明显优于传统的手工规则. ...
用于求解旅行商问题的深度智慧型蚁群优化算法
1
2021
... 启发式算法通常需要改进其在解空间内的搜索能力,因此王原等[15]利用深度智慧型蚁群优化算法(Deep Intelligent Ant Colony Optimization,DIACO)求解TSP,DRL结合蚁群算法提高了DRL在解空间内的搜索能力以及蚁群算法的计算能力.此外,Ma et al[16]提出双方面协作Transformer (Dual⁃Aspect Collaborative Transformer,DACT)模型来解决具有动态和周期性变化的CVRP,使用双向编码器分别学习节点和位置特征的嵌入,同时使用课程学习训练模型,提高模型的采样速率.实验结果表明,DACT优于传统的启发式算法,且具有更优的泛化性能. ...
Deep intelligent ant colony optimization for solving travelling salesman problem
1
2021
... 启发式算法通常需要改进其在解空间内的搜索能力,因此王原等[15]利用深度智慧型蚁群优化算法(Deep Intelligent Ant Colony Optimization,DIACO)求解TSP,DRL结合蚁群算法提高了DRL在解空间内的搜索能力以及蚁群算法的计算能力.此外,Ma et al[16]提出双方面协作Transformer (Dual⁃Aspect Collaborative Transformer,DACT)模型来解决具有动态和周期性变化的CVRP,使用双向编码器分别学习节点和位置特征的嵌入,同时使用课程学习训练模型,提高模型的采样速率.实验结果表明,DACT优于传统的启发式算法,且具有更优的泛化性能. ...
Learning to iteratively solve routing problems with dual?aspect collaborative transformer
2
2021
... 启发式算法通常需要改进其在解空间内的搜索能力,因此王原等[15]利用深度智慧型蚁群优化算法(Deep Intelligent Ant Colony Optimization,DIACO)求解TSP,DRL结合蚁群算法提高了DRL在解空间内的搜索能力以及蚁群算法的计算能力.此外,Ma et al[16]提出双方面协作Transformer (Dual⁃Aspect Collaborative Transformer,DACT)模型来解决具有动态和周期性变化的CVRP,使用双向编码器分别学习节点和位置特征的嵌入,同时使用课程学习训练模型,提高模型的采样速率.实验结果表明,DACT优于传统的启发式算法,且具有更优的泛化性能. ...
Neural large neighborhood search for the capacitated vehicle routing problem
2
2020
... 为了缩小基于DRL的方法与最先进优化方法之间的性能差距,Hottung and Tierney[17]提出了一种新颖的神经邻域搜索(Neural Large Neighborhood Search,NLNS)框架,该框架集成启发式算法以生成新的解决方案,学习机制基于具有AM的神经网络,并设计结合到大型邻域搜索设置中.实验结果表明,该模型明显优于仅使用手工启发式算法和著名的启发式算法,并接近于最先进的优化方法的性能.但上述方法仅考虑小规模CVRP,当问题规模变大时,优化效果不理想. ...