三国志·战棋版：AI棋王诞生_单机资讯-易采游戏网

三国志·战棋版AI战力揭秘！历时40天，基于深度强化学习打造无监督三棋棋王，V0与V0.5版本最强武将、技能、五人组全曝光。荀彧登顶胜率之王，与成关键技！项目暂歇，诚邀同好交流优化，共探AI+策略游戏的无限可能！三国志战棋版 AI攻略

不明白为何贴吧审核未通过

历时约40天，由我独立完成的基于深度强化学习的无监督三棋棋王训练项目，现已发布V0与V0.5版本，成功筛选出最强五人组合，并确定了胜率最高的武将阵容。

发帖旨在寻找志趣相投的朋友，共同交流完善该项目（纯属娱乐），因后续需准备NIPS，时间较为紧张。

忙着赶项目截止日期，还得抽空打游戏，这项目估计得先放一放了。

武将数据库分为两个版本：一是依据最后一次内测的v0版，二是根据最近官方更新的v0.5版。

注意：

武将不包含：

召唤张角、张宝、娄圭、刘晔、袁绍五人前来。

邹氏抱怨睡眠困扰

戏志才、黄月英、严颜和典韦这些武将个人认为实用性不高，技能代码复杂，训练成本虽可降低，但整体效果有限，其中严颜或许稍有作用。

不擅长撒豆成兵类召唤技能，机制复杂数值难控；暴戾无仁类设定也较棘手，写作过程颇为费力。

1. 先放结论：

荀彧在两个版本中胜率均居首位

V0版中提升胜率最显著的技能为

V0.5版本中该技能已移除，影响胜率最高的变为

荀彧刘备董卓张辽庞德组合胜率登顶，内测高玩能来点评下这阵容吗？

最强五人组曝光，胜率登顶，战报即将揭晓，敬请期待！

影响胜率的关键技能由最高注意力值决定

2. 模型简介：

强化学习在DOTA2（OpenAI Five）和王者荣耀（叶等，2020；高某等，2021，腾讯牛X！）等复杂游戏中已展现出卓越性能。受此启发，我基于类似架构搭建模型，在保留核心结构的同时，剔除了部分视觉输入特征，并引入多项适配新游戏机制的改进：包括将战场离散化为棋盘形式以简化状态空间，采用回合制行动模式（实现起来比较简单），以及设计了限定可选技能数量的23技能选择机制。此外，借鉴DeepMind在军棋项目中提出的基于纳什均衡的策略思想，将其融入决策过程，通过自我对弈的方式驱动强化学习训练，最终构建出能够在该环境中自主进化、持续优化策略的智能体。整个框架依托自博弈不断生成高质量数据，实现策略网络的迭代提升。

系统针对62名英雄中的44个S级技能，进行了约2.73×10次训练，V0版本累计训练约27天。

在训练V0.5时，为简化结果，仅采用基于V0版本排名前20的武将和前30的技能进行训练。

强化学习模型结构所示（内行皆知）