重庆理工大学学报(自然科学) ›› 2024, Vol. 38 ›› Issue (5): 154-161.

• 机器博弈 • 上一篇    

结合 A2C 和手牌估值方法的麻将博弈研究

衣御寒,王亚杰,吴燕燕,刘 松,张兴慧,蒋传禹   

  1. 沈阳航空航天大学工程训练中心,沈阳 110136
  • 发布日期:2024-06-24
  • 作者简介:衣御寒,男,硕士研究生,主要从事智能体自主决策与协同优化研究,E-mail:13940095513@163.com;通信作者王亚杰,女,博士,教授,主要从事模式识别、图像融合、机器博弈研究,E-mail:wangyajie@sina.com

  • Published:2024-06-24

摘要: 针对大众麻将中对手牌信息利用不充分的问题麻将;非完备信息;深度强化学习;A2C,提出了手牌估值方法,并设计了基础麻将程序(MJE)。为进一步提升麻将 AI 的博弈能力,使用深度强化学习方法设计了麻将 AI(MJE-RL)。首先,通过 MJE 自对弈生成深度学习的训练数据。其次,根据训练集、测试集和对比实验的结果,选择效果最好的模型作为强化学习的预训练模型。最后,使用优势演说-评论家模型作为强化学习的主要框架,将训练好的深度学习模型作为演说家部分进行决策,通过MJE-RL与MJE的对弈不断提升麻将AI的博弈能力。实验结果显示,MJE-RL的胜率比MJE高4.08%,点炮率比MJE低3.02%,表明MJE-RL在攻守两端都有提升,达到了提升麻将AI牌力的目的。

关键词: 麻将;非完备信息;深度强化学习;A2C

中图分类号: 

  • TP18