重庆理工大学学报(自然科学) ›› 2021, Vol. 35 ›› Issue (3): 166-173.doi: 10.3969/j.issn.1674-8425(z).2021.03.022
王亚杰a,丁傲冬b,祁冰枝b,张云博b
摘要: 针对虚拟遗憾最小化算法和传统上限置信区间算法等过于依赖领域知识或者需要 大量对局记录训练的问题,以二人无限注德州扑克为研究对象,提出了基于预期收益策略的改 进 UCT算法。首先,使用蒙特卡罗方法即多次随机生成对方底牌和未知公共牌,然后比较双方 牌型大小,计算己方胜率;其次,根据己方胜率和己方动作下注量计算预期收益并根据每个动作 的预期收益,选择一个最大的动作作为下一步;最后,根据己方胜率与对手下注量评估对手胜 率,从而将预期收益策略作为对手策略模型应用在传统 UCT算法中。在开局筹码量为 20000 的情况下,改进后的 UCT算法与基于预期收益策略实现的德州扑克程序 THPZZ进行 100局的 对弈,平均每局赢得的筹码量为 655,水平显著高于 THPZZ。
中图分类号: