重庆理工大学学报(自然科学) ›› 2024, Vol. 38 ›› Issue (5): 145-153.

• 机器博弈 • 上一篇    

基于深度强化学习的双置换表优化算法研究

王栋年,王军伟,薛世超,汪 超,徐长明   

  1. 1.东北大学 研究生院,河北 秦皇岛 0660042.东北大学秦皇岛分校 计算机与通信工程学院,河北 秦皇岛 066004
  • 发布日期:2024-06-24
  • 作者简介:王栋年,男,硕士研究生,主要从事机器博弈研究,E-mail;dongnian.wang@outlook.com;通信作者徐长明,男,工学博士,讲师,主要从事基于深度学习的机器博弈、时间序列异常检测等研究,Email:changmingxu@neuq.edu.en

  • Published:2024-06-24

摘要: 基于深度强化学习的计算机博弈程序(如AlphaGo)已在围棋上战胜了人类世界冠军。这些算法利用可学习的价值神经网络和策略神经网络指导蒙特卡洛树的探索。为提高蒙特卡洛树的搜索性能,已提出多种改进方法,其中置换表已被证明可提高搜索效率。在此基础上,提出一种新的基于置换表的方法——基于深度强化学习的双置换表优化算法。该方法使用不同的替换策略管理双层置换表,并将六子棋的两步落子解耦为2个独立的神经网络。这不仅减小了动作空间规模,也更易于神经网络训练。以六子棋为例进行的实验结果表明,在有限的计算资源下,该方法能显著提升棋局哈希命中率和程序棋力水平。

关键词: 深度强化学习;置换表;计算机博弈;AlphaGo;蒙特卡洛树

中图分类号: 

  • TP183