重庆理工大学学报(自然科学) ›› 2022, Vol. 36 ›› Issue (12): 129-135.

• “机器博弈”专栏 • 上一篇    

一种结合策略价值网络的五子棋自博弈方法研究

刘 溜,张小川,彭丽蓉   

  1. 1.重庆理工大学 两江人工智能学院,重庆 401135; 2.重庆理工大学 人工智能系统研究所,重庆 400054; 3.重庆工业职业技术学院 人工智能与大数据学院,重庆 401120; 4.重庆市南开两江中学校,重庆 4011
  • 发布日期:2023-01-28
  • 作者简介:刘溜,男,硕士研究生,主要从事机器博弈、机器学习研究,Email:2236142970@qq.com;通讯作者 彭丽蓉,女,副 教授,主要从事计算机博弈、软件工程研究,Email:28011734@qq.Co

  • Published:2023-01-28

摘要: 针对传统蒙特卡洛树搜索算法存在“难以在节点的探索和利用之间做出平衡;难以 聚焦重要搜索分支”等问题,提出使用策略价值网络完成棋局评估与落子着法生成,将策略价值 网络与蒙特卡洛树搜索相结合。策略价值网络指导搜索树的展开,搜索结果用以持续更新网络 参数,形成一种自博弈方法,在多轮自博弈中实现算法的迭代优化。实验表明:相较于各种经典 搜索算法,所提算法在平均落子时间上降低了约 95%,平均对局胜率达到 80%以上。

关键词: 蒙特卡洛树搜索;深度神经网络;五子棋计算机博弈;自博弈

中图分类号: 

  • TP301