基于深度强化学习的方法求解带时间窗的旅行商问题

重庆理工大学学报（自然科学） ›› 2023, Vol. 37 ›› Issue (12): 260-266.

基于深度强化学习的方法求解带时间窗的旅行商问题

江明，刘志威

福建理工大学互联网经贸学院；福建理工大学交通运输学院

出版日期:2024-02-04 发布日期:2024-02-04
作者简介:江明,男,博士,副教授,主要从事数字孪生、IT治理研究,E-mail:19842158@fjut.edu.cn;刘志威,男,硕士研究生,主要从事深度强化学习、智能交通研究,E-mail:2211801008@mail.fjut.edu.cn

Solving the traveling salesman problem with time window based on deep reinforcement learning

Online:2024-02-04 Published:2024-02-04

摘要/Abstract

摘要： 带时间窗的旅行商问题(traveling salesman problem with time window,TSPTW)是旅行商问题的一个变种,在物资配送等方面有大量的应用。传统方法的求解时间较长且泛化性较差,为提高TSPTW的求解效率,将求解过程建模为马尔科夫决策过程,定义了状态、动作、奖励,提出了一种基于深度强化学习的Transformer加指针网络的组合模型,通过多头注意力对输入的特征进行编码,采用指针网络求出解的概率分布,所提深度学习网络通过强化学习算法进行训练。实验结果表明:所提方法对比传统的启发式求解算法,可以得到更高质量的解,相较于求解器和启发式算法,有超过数10倍的提升效果,且易于将模型拓展到不同规模的问题上

关键词: 带时间窗的旅行商, 深度强化学习, 组合优化, 注意力机制

Abstract: The Traveling Salesman Problem with Time Window (TSPTW), widely applied in material distribution, is a variant of the traveling salesman problem. To remedy such problems as long solution time and poor generalization of the traditional method as well as to to improve the solution efficiency of TSPTW, this paper models the solution process as a Markov decision process, defines the state, action and reward, and proposes a deep reinforcement learning based Transformer + pointer network model, which encodes the input features through multi-head attention, and employs the pointer network to work out the probability distribution of the solution. The deep learning network is trained by reinforcement learning algorithm. The experimental results show the proposed method obtains higher quality solutions compared with the traditional heuristic algorithms. Moreover, it markedly improves the final results and easily transfers the model to other problems of different scales compared with solvers and traditional heuristic algorithms.

中图分类号:

TP18

江明, 刘志威. 基于深度强化学习的方法求解带时间窗的旅行商问题[J]. 重庆理工大学学报（自然科学）, 2023, 37(12): 260-266.

[1]	杨飞帆，李军，王耀弘. 改进ＹＯＬＯｖ８的环视车位检测算法研究[J]. 重庆理工大学学报（自然科学）, 2024, 38(9): 22-29.
[2]	江浩斌，任俊豪，李傲雪，傅世友. 城市道路场景下的被遮挡车辆检测算法研究[J]. 重庆理工大学学报（自然科学）, 2024, 38(9): 39-47.
[3]	潘明章，袁乐艺，万振华，梁璐，苟轩源，曹鑫鑫. 采用双目视觉的道路缺陷检测与自动驾驶风险评估[J]. 重庆理工大学学报（自然科学）, 2024, 38(9): 67-74.
[4]	周雅夫，李瑞洁，侯代峥. 融合注意力机制的ＣＮＮ-ＧＲＵ燃料电池老化趋势预测[J]. 重庆理工大学学报（自然科学）, 2024, 38(9): 106-112.
[5]	岳有军，张远锟，赵辉，王红君. 一种针对室内关键目标检测的改进ＹＯＬＯｖ８算法[J]. 重庆理工大学学报（自然科学）, 2024, 38(9): 143-149.
[6]	李军，许炫皓，王耀弘. 改进ＹＯＬＯｖ５ｓ的钢轨表面缺陷检测算法[J]. 重庆理工大学学报（自然科学）, 2024, 38(8): 130-137.
[7]	田枫, 王鑫, 刘芳, 刘宗堡, 刘涛, 唐莎莎, 刘悦, 张世祺. 融合ＳＭＧＣ-ＥＣＡｓ-Ｒｅｓｎｅｔ的致密砂岩岩相识别方法研究[J]. 重庆理工大学学报（自然科学）, 2024, 38(8): 158-166.
[8]	赵晓东，刘瑞庆，王向，温士涛. 一种改进多尺度融合的电动汽车充电口识别方法[J]. 重庆理工大学学报（自然科学）, 2024, 38(7): 118-126.
[9]	廖宁生，杨雲翔，朱秘，彭波. 一种改进SegNet网络的路面裂缝分割算法[J]. 重庆理工大学学报（自然科学）, 2024, 38(7): 142-148.
[10]	梁卓，李鸿燕，徐庆，陈彬. 采用 SKM 与 Transformer 的多维脑电情感识别研究[J]. 重庆理工大学学报（自然科学）, 2024, 38(7): 149-157.
[11]	张学凯，张仰森，刘帅康，朱思文，孙圆明. 面向财务审计的数据异常侦测算法研究[J]. 重庆理工大学学报（自然科学）, 2024, 38(7): 158-165.
[12]	沈启敏，贾月静，程艳. 改进MSCNN-ECA的轴承故障诊断方法研究[J]. 重庆理工大学学报（自然科学）, 2024, 38(7): 180-187.
[13]	朱孙科，严健容，熊开洋，熊钊，安邦. 鲸鱼算法优化 CNN-BiGRU-ATTENTION 的车辆换道意图识别模型[J]. 重庆理工大学学报（自然科学）, 2024, 38(6): 73-80.
[14]	董金龙，贾志绚. 改进生成对抗网络的雾霾天气交通标志识别算法[J]. 重庆理工大学学报（自然科学）, 2024, 38(6): 203-211.
[15]	张小川，杨小漫，涂飞，王鑫，严明珠，梁渝卓. 融合经验知识与深度强化学习的久棋Alpha-Beta算法优化研究[J]. 重庆理工大学学报（自然科学）, 2024, 38(5): 115-120.