一种多重优先经验回放的麻将游戏数据利用方法

重庆理工大学学报（自然科学） ›› 2022, Vol. 36 ›› Issue (12): 162-169.

一种多重优先经验回放的麻将游戏数据利用方法

李淑琴，李奕

１．北京信息科技大学计算机学院，北京１００１０１；２．感知与计算智能联合实验室，北京１００１０１）

发布日期:2023-01-28
作者简介:李淑琴，女，博士，教授，主要从事人工智能与计算机博弈研究，Ｅｍａｉｌ：ｌｉｓｈｕｑｉｎ＿ｄｅ＠１２６．ｃｏｍ；通讯作者李奕，男，硕士研究生，主要从事人工智能研究，Ｅｍａｉｌ：１２４３４４６０３４＠ｑｑ．ｃｏｍ。

Published:2023-01-28

摘要/Abstract

摘要： 针对大众麻将ＡＩ训练时经验回放机制中样本均匀采样导致训练缓慢的问题，提出了一种多重优先经验回放算法，即从时序差分误差、局面复杂程度、动作即时奖励３个维度对经验样本进行优先级标记，每次采样时优先级高的样本高概率被抽取来更新神经网络。为了验证算法的有效性，构建了大众麻将自博弈平台进行相应的实验验证。实验结果表明：相比随机经验回放方法，新方法将麻将ＡＩ的训练速度提升了２２．５％。

中图分类号:

TP311

李淑琴，李奕. 一种多重优先经验回放的麻将游戏数据利用方法[J]. 重庆理工大学学报（自然科学）, 2022, 36(12): 162-169.

[1]	陈垦, 王世法, 谭屈山. 远程广域网多技术融合的高速公路施工智能监控系统[J]. 重庆理工大学学报（自然科学）, 2023, 37(11): 125-133.
[2]	李刚, 张晴, 徐传运. 监控视频的柔性实时分析架构[J]. 重庆理工大学学报（自然科学）, 2023, 37(11): 188-195.
[3]	刘彦飞, 毛博文, 袁浩然. 一种公安院校教培知识图谱本体构建研究[J]. 重庆理工大学学报（自然科学）, 2023, 37(10): 229-238.
[4]	张本文, 高瑞玮, 乔少杰. 新型融合注意力机制的遮挡面部表情识别框架[J]. 重庆理工大学学报（自然科学）, 2023, 37(9): 217-226.
[5]	倪锦园, 张建勋. 融合多重注意力机制残差网络的血细胞识别[J]. 重庆理工大学学报（自然科学）, 2023, 37(4): 217-225.
[6]	倪锦园, 张建勋, 张馨月. 深度宽残差网络注意力机制的人脸表情识别[J]. 重庆理工大学学报（自然科学）, 2023, 37(1): 177-185.
[7]	邱虹坤, 郑晓东, 王亚杰. 引入合作竞争关系的桥牌叫牌数据库构建[J]. 重庆理工大学学报（自然科学）, 2022, 36(12): 142-147.
[8]	沈杰１, 乔少杰１, ２, 韩楠１, 元昌安３, ４, 许源平１, 覃晓４, 王珏岚５. 融合多信息的个性化推荐模型[J]. 重庆理工大学学报（自然科学）, 2021, 35(3): 128-138.
[9]	梁卓灵, 元昌安, 覃晓, 乔少杰, 韩楠, 范勇强. 基于改进谱聚类的热点区域挖掘方法[J]. 重庆理工大学学报（自然科学）, 2021, 35(1): 129-137.
[10]	韩楠a, 乔少杰b, 黄萍a, 彭京, 周凯. 基于群体智能的跨语言网络舆情文本聚类模型[J]. 重庆理工大学学报（自然科学）, 2019, 33(9): 99-108.
[11]	蒙华a, 苏静b, 李立峰a, 翟玉兰a. 医院网站日志挖掘数据预处理的研究[J]. 重庆理工大学学报（自然科学）, 2019, 33(8): 144-148.
[12]	. 不平衡分类的数据采样方法综述[J]. 重庆理工大学学报（自然科学）, 2019, 33(7): 102-112.
[13]	. 应用于软件缺陷预测模型的量子粒子群优化BP算法[J]. 重庆理工大学学报（自然科学）, 2019, 33(6): 184-189.
[14]	. 大数据挖掘中的混合差分进化K-Means无监督聚类算法[J]. 重庆理工大学学报（自然科学）, 2019, 33(5): 107-112.
[15]	. 基于激活漏洞能力条件的软件漏洞自动分类框架[J]. 重庆理工大学学报（自然科学）, 2019, 33(5): 154-160.

一种多重优先经验回放的麻将游戏数据利用方法

PDF (PC)

赞

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

Metrics

本文评价

推荐阅读 0