重庆理工大学学报(自然科学) ›› 2022, Vol. 36 ›› Issue (12): 136-141.

• “机器博弈”专栏 • 上一篇    

Q学习实现亚马逊棋评估函数自调参

邱虹坤,王浩宇,王亚杰   

  1. (1.沈阳航空航天大学 计算机学院,沈阳 110136; 2.沈阳航空航天大学 工程训练中心,沈阳 110136)
  • 发布日期:2023-01-28
  • 作者简介:邱虹坤,男,硕士,副教授,主要从事机器博弈研究,Email:qiuhongkun@sau.edu.cn;通讯作者 王浩宇,男,主要 从事机器博弈研究,Email:1049854191@qq.com。

  • Published:2023-01-28

摘要: 在亚马逊棋评估函数模型中进行参数调试,主要由人工依靠经验反复实验来实现, 效率较低且无法保证精度。针对人工调参效率低下、精确度不足的问题,可借助机器学习的方 法来弥补。采用强化学习中 Q学习的思路,构造一种具有自学习能力的网络结构,利用计算机 自身反复模拟对局与迭代,实现评估函数调参工作的自动化。实验结果表明:当训练达 10000 次时,模型各结点 Q值会趋于收敛,说明此时程序可以做出稳定合理的调参操作;在博弈实战 中,模型调参后的程序也表现出了较强的棋力。

关键词: 计算机博弈;亚马逊棋;强化学习;Q学习;评估函数

中图分类号: 

  • TP311