重庆理工大学学报(自然科学) ›› 2021, Vol. 35 ›› Issue (3): 166-173.doi: 10.3969/j.issn.1674-8425(z).2021.03.022

• “第四届亚洲人工智能技术大会”专栏 • 上一篇    下一篇

基于预期收益策略与UCT的德州扑克算法

王亚杰a,丁傲冬b,祁冰枝b,张云博b   

  1. 沈阳航空航天大学 a.工程训练中心;b.计算机学院,沈阳 110135
  • 收稿日期:2020-09-02 出版日期:2021-04-07 发布日期:2021-04-07
  • 作者简介:王亚杰,女,博士,教授,主要从事模式识别、图像融合、机器博弈研究;E-mail:wangyajie@sina.com;通讯作 者 丁傲冬,男,硕士研究生,主要从事机器博弈、计算机视觉研究,E-mail:15895937432@163.com。
  • 基金资助:
    辽宁省兴辽英才计划项目(XLYC1906003)

  • Received:2020-09-02 Online:2021-04-07 Published:2021-04-07

摘要: 针对虚拟遗憾最小化算法和传统上限置信区间算法等过于依赖领域知识或者需要 大量对局记录训练的问题,以二人无限注德州扑克为研究对象,提出了基于预期收益策略的改 进 UCT算法。首先,使用蒙特卡罗方法即多次随机生成对方底牌和未知公共牌,然后比较双方 牌型大小,计算己方胜率;其次,根据己方胜率和己方动作下注量计算预期收益并根据每个动作 的预期收益,选择一个最大的动作作为下一步;最后,根据己方胜率与对手下注量评估对手胜 率,从而将预期收益策略作为对手策略模型应用在传统 UCT算法中。在开局筹码量为 20000 的情况下,改进后的 UCT算法与基于预期收益策略实现的德州扑克程序 THPZZ进行 100局的 对弈,平均每局赢得的筹码量为 655,水平显著高于 THPZZ。

关键词: UCT算法, 蒙特卡罗, 德州扑克, 预期收益, 对手胜率评估, 非完备信息博弈

中图分类号: 

  • TP181