重庆理工大学学报(自然科学) ›› 2022, Vol. 36 ›› Issue (12): 162-169.

• “机器博弈”专栏 • 上一篇    

一种多重优先经验回放的麻将游戏数据利用方法

李淑琴,李 奕   

  1. 1.北京信息科技大学 计算机学院,北京 100101; 2.感知与计算智能联合实验室,北京 100101)
  • 发布日期:2023-01-28
  • 作者简介:李淑琴,女,博士,教授,主要从事人工智能与计算机博弈研究,Email:lishuqin_de@126.com;通讯作者 李奕, 男,硕士研究生,主要从事人工智能研究,Email:1243446034@qq.com。

  • Published:2023-01-28

摘要: 针对大众麻将 AI训练时经验回放机制中样本均匀采样导致训练缓慢的问题,提出 了一种多重优先经验回放算法,即从时序差分误差、局面复杂程度、动作即时奖励 3个维度对经 验样本进行优先级标记,每次采样时优先级高的样本高概率被抽取来更新神经网络。为了验证 算法的有效性,构建了大众麻将自博弈平台进行相应的实验验证。实验结果表明:相比随机经 验回放方法,新方法将麻将 AI的训练速度提升了 22.5%。

关键词: 大众麻将;多重优先经验回放;时序差分误差;自博弈

中图分类号: 

  • TP311