重庆理工大学学报(自然科学) ›› 2022, Vol. 36 ›› Issue (12): 121-128.
• “机器博弈”专栏 • 上一篇
吴立成,吴启飞,钟宏鸣
摘要: 针对现有的“拱猪”卷积模型计算复杂且高度依赖专家知识的问题,提出一种应用 于“拱猪”博弈游戏的深度神经网络和蒙特卡洛方法相结合的深度蒙特卡洛算法。采用自对弈 的方式进行模拟和评估,使用深度 Q网络代替 Q表完成 Q值的更新,高效地对“拱猪”策略进行 探索和利用;采用分布式并行计算的方法提高训练效率,较于传统的蒙特卡洛方法可有效地解 决高方差问题。在具有一个 GPU的单台服务器上训练 24h后,所构建的智能代理与“拱猪”卷 积模型对弈了 10000局。实验结果表明:智能代理胜率可达 78.3%,平均每局可获得 67分,对 具体示例进行分析,进一步验证了该算法的有效性以及智能代理的良好性能
中图分类号: