Dota2人类靠“手段”赢下AI一局!AI最终以2:1战胜Dota2顶尖玩家团队,剑指职业队
社区服务
火星文
银行
结婚
道具中心
勋章中心
管理操作原因
基本信息
管理团队
管理操作
在线会员
会员排行
版块排行
帖子排行
手机版
小说论坛
用户中心
搜索
银行
猴岛论坛
帖子
用户
版块
帖子
高级搜索
校园青春
动漫剧场
跑跑卡丁车
纪念馆
免费资源&网盘分享
社区服务
永劫无间
虚拟交易发布
签到统计
QQ微信技术
关闭
选中
1
篇
全选
猴岛论坛
游戏达人&视频
Dota2人类靠“手段”赢下AI一局!AI最终以2:1战胜Dota2顶尖玩家团队,剑指职业队
发帖
回复
倒序阅读
最近浏览的帖子
最近浏览的版块
« 返回列表
新帖
悬赏
任务
交易贴
自动发卡
拍卖
红包
际遇红包
1
个回复
[游戏资讯]
Dota2人类靠“手段”赢下AI一局!AI最终以2:1战胜Dota2顶尖玩家团队,剑指职业队
楼层直达
花开那年丶
ZxID:20774595
关注Ta
注册时间
2013-02-23
最后登录
2024-11-24
发帖
313306
在线
16846小时
精华
0
DB
485
威望
28082
保证金
0
桃子
20
鲜花
0
鸡蛋
0
访问TA的空间
加好友
用道具
发消息
加好友
他的帖子
对该用户使用道具
qq
等级:
版主
๓ 校园青春欢迎你๓
举报
只看楼主
使用道具
楼主
发表于: 2018-08-06
0
北京时间 8 月 6 日凌晨,OpenAI的AI系统又跟人类打了三场Dota 2比赛,最终2:1 战胜了人类队伍!
此次比赛旨在检验 AI 系统是否具备在 TI8(2018 年 Dota2 国际邀请赛)上与顶尖职业强队一较高低的水平。如此看来,OpenAI 又将迈向新的征程。
这次代表人类出战的是 Blitz,Cap,Fogged,Merlini 和 MoonMeander,他们是欧美 Dota 圈耳熟能详的主播、解说和前职业选手和现役职业选手,其中 Merlini 更是 Dota 1 的宙斯冠名者,经典的“绕树林三杀”引无数玩家传颂。据 OpenAI 官网介绍,他们的平均水平超过了 99.95% 的 Dota2 玩家,不过5人并没有在一起训练过,默契程度有限。
DOTABUFF 的数据显示,他们都进入了超凡入圣天梯排行榜,其中天梯排名最高的是现役 Complexity 队员 MoonMeander,美服第 40 名,排名最低的是解说 Capitalist,美服第 1054 名。
与一个多月前的 5V5 镜像英雄 Dota2 比赛不同,这一次,OpenAI 不仅扩大了英雄池,允许双方以随机征召模式挑选英雄(无禁用),而且将 AI 系统的反应速度从 80ms 增加到了 200ms,更接近人类的反应速度,同时还移除了此前多种对人类不利的限制:
图丨比赛限制
相比之下,最大的变化就是新的规则允许选手插眼、隐身(使用隐刀或诡计之雾等)和打 Roshan。这些限制的解除代表着人类可以获得更多的信息和发展空间,运用更多的战术和策略,比如利用刁钻的侦察守卫获得更多的信息,弥补技能衔接失误和反应速度较慢的弱点。
图 | OpenAI Five 打 Roshan
这也意味着 AI 在短短一个多月的时间里掌握了这些英雄、操作和相应的对策。此前,一些解说和 Reddit 论坛的大部分声音均认为,掌握这些复杂的游戏机制还有很长的路要走,至少要 1-2 年的时间。但是,人类被人工智能打脸的事情可没少出现过。
在正式较量之前,AI 系统和现场的 5 名观众进行了一场热身赛。只过了 13 分钟,观众队伍就以4:21的悬殊人头数输掉了比赛。AI 在游戏中表现出了强烈的进攻欲望和压迫性,各种越塔强杀,绕塔 Gank,钻树林 TP,只用了 10 分钟就站在了人类玩家的高地上为所欲为。
图丨第一局阵容
不过这种情况在正式比赛中有所好转,因为玩家的水平有了极大提升。在第一局的对线期,人类选手的补刀并没有落下 AI 多少,AI 的冲塔欲望也收敛了许多,因为选手的走位和耗血都更加慎重。同时人类的优势路拉野技巧也让 AI 不知所措,这也是它控制的英雄第一次出现原地转圈的情况。
然而好景不长,AI 对技能和血量的精准计算使得它们在小规模交战中占尽优势,几次交战人类选手不仅没有占到优势,还被打出多次 3 人小团灭,甚至被 AI 火木仓手绕树林反杀。自此,AI 开始占据人头和经济优势,并且展示出了十分明显的抱团推进策略,经常会出现杀人拿塔的“完美节奏”。
人类队伍在影魔做出隐刀后稍稍稳住了局面,几次成功的抓人和互换暂缓了 AI 的杀人节奏。这时的 AI 并没有展现出传统 Bot 的无脑抱团推进,它们开始展开 2-3 人的小型抓人,同时大哥火木仓和直升机偶尔钻野补发育。不难看出,AI 系统其实已经形成了对游戏的“理解”,即在不同局面下做出不同的选择。
此后局面持续失控,人类队伍面对 AI 的凶狠 Gank 和抱团拿塔毫无办法,毕竟火木仓的狙击和直升机的高射炮随随便便就能秒杀辅助。在 AI 队伍杀上下路高地时,人类的死灵法被秒,但是第一时间选择买活,AI 队伍居然像人类玩家一样选择了撤退,寻找下一次更好的时机。之后再次冲击高地时,人类神牛跳大被莱恩秒羊,这不仅预示着团战的溃败,高地的失守,也奠定了此后游戏的走向。最终人类无力抵抗,24 分钟打出 GG。
图丨第二局阵容
第二局比赛的总体走向和第一局十分相似,人类队伍拿出隐刺试图打出更多信息,增加更多的不确定性,影响 AI 的判断。最初虽然打出了一定的效果,但是 AI 的总体思路并没有改变,通过刚三压制人类大哥的发育,积极的游走、换路和 TP 破坏人类选手的击杀和推塔。
虽然隐刺、神牛和影魔的配合打出了一定的积极效果,多次成果击杀 AI 的火木仓和辅助,但在人类乘胜追击时,AI 总是会找到突破口反杀人类。值得一提的是,第一局中人类选手因为游戏延迟暂停了游戏,而第二局中 AI 系统也暂停了一次,这似乎证明了 AI 在学习人类的行为,尽管它不明白背后的理由。
图 | 比赛现场
游戏进行到15分钟左右,随着人类中路的失守,局势再一次被AI所掌控。最终AI队伍在24分钟拿下次局。
在2:0击败人类队伍后,OpenAI的CTO Greg Brockman宣布,“我们的系统已经准备好在TI8上面对顶尖职业队伍了!”
图丨OpenAI CTO 推文
随后进行的第三局颇有些为人类挽回最后尊严的意思,因为双方的阵容是由观众选出的,AI只负责在游戏中操作。最后我们可以看出 OpenAI 对观众选出的阵容十分“不满”,只给出了2.9% 的赛前胜率预测。
第三局的走向也证明了OpenAI的赛前预测,没有了前两局的顺风顺水和完美节奏。在游戏初期,AI 操刀的斧王选择了双圆盾出门,配合除隐刺外的3名队友强行压制人类优势路,不过效果并不理想,毕竟斯温和小鱼双核在没有装备支撑的情况下效果有限。
在丧失了分路知识和熟悉的节奏后,AI 英雄在 10 到 25 分钟在地图的各个地方频频被抓,5 个英雄各自为战,无法组织有效的反击、防御和游走。比赛也进入了人类的节奏,此后 OpenAI 下路高地被破,我们也看到了很多莫名的举动,比如小鱼人胡乱使用暗影之舞, 女王对着风杖吹起的死亡先知放大,斯温和斧王在敌方塔下乱走等。AI 系统还在游戏中给出了1%的绝望胜率。
人类在 33 分钟攻上了 AI 的中路高地,在 BKB 的直升机面前,AI 并没有做出多少有效的抵抗就被击溃。最终人类扳回一局,守住尊严。同时也揭示了现阶段 AI 系统的不足—从逆风局中学习的知识还不够多,无法有效应对局面不利的情况。
事实上,在此前击败人类业余队伍后,OpenAI 承认,他们在项目最初也没有料到,全无基础的强化学习会达到如此高度。
图丨OpenAI Five 的网络架构图
OpenAI 的 Dota 2 人工智能系统名为“OpenAI Five”。根据OpenAI 此前的论文,该系统基于机器学习和神经网络技术,在 256 个 GPU 和 12.8 万个 CPU(谷歌云平台)的加持下,通过近端策略优化(PPO)算法,24 小时不间断地进行自主对抗,其每日训练量等同于 180 年的游戏时间。
训练全程未使用人类选手的数据,也没有搜索和观看人类游戏的录像,全靠自学成才。不过目前英雄的出装和技能选择都是人类编写的脚本,AI 在每局游戏中会随机选择一套。
由于 AI 系统要“操控”5 位英雄,OpenAI 为每位英雄分配了一个长短期记忆递归神经网络(LSTM RNN Network)。网络之间没有直接的沟通渠道,只有在同一局游戏中,5 个网络才会通过“团队精神”的超参数值互相协调。该参数介于 0 和 1 之间,用于协调个人和团队的利益分配比重。最终这一数值被设定为 0.97,促使每个网络将团队利益放在首位。
在训练中,OpenAI 团队使用了奖惩机制来定义每名英雄获得的“得分”:补刀和破塔等行为被视为奖励,而死亡被视为惩罚。
有意思的是,在 GitHub 开源的奖励机制文档中,杀死对方英雄的比重是-0.6,这是因为“击杀”所得到的金钱和经验会增加很多分数,为了平衡“击杀”带来的奖励,故而将其行为本身设为“惩罚”,降低其带来的分数收益,防止 AI 过分追求击杀。
图丨AI系统计算个人奖励比重
以上的种种机制不仅印证了 Dota 2 的本质是“推塔”,而不是“击杀”,更重要的是向我们展现了一个理智的决策机制,是如何进行短期利益和长期利益之间的博弈的。
本质上讲,通过强化学习训练的AI系统是在不断寻找和计算一个“最优解”,可以是局部最优,亦或是全局最优。而比赛中的细节显示,AI系统的确会放弃当下的利益,转而为局势和整体发展着想。
因此 OpenAI 认为,“我们的系统确实在向着长远的方向优化。”
纵观全局,AI 系统展现的战术成长、沟通、协调和取舍可以简单地概括为“为达最终目标的长期规划”。无论是 OpenAI Five 之于 Dota 2,还是 DeepMind Alpha Go之于围棋,人工智能都做出了一些人类难以理解的举动,其中不乏完全没有意义和必要的操作,这归根结底是从零开始学习的结果,AI 系统仍然在摸索并逐步完善。不过事实已经证明,无数个类似的举动最终带来了胜利,也启发了人类。
国外解说 Purge 和 Pixel 在比赛中多次提到,人类选手可以从 AI 身上学到很多技巧,比如仇恨分担和转移。这也是 OpenAI 系统的正确使用方式,人类目前对AI 系统的套路和策略并不了解,相信在多次练习和对战中,人类对抗 AI 的能力一定会有所提高。这反过来也可以用来提升人类玩家的水平。
正如 OpenAI 联合创始人兼 CTO Greg Brockman 所说,因为 OpenAI 背后也是人类智慧的结晶,“无论结果如何,胜利(受益)的一方都是人类。”
-End-
本帖de评分:
共
1
条评分
DB +15
以你名字呼唤我
DB
+15
2018-08-08
游戏达人欢迎你٩(๑❛ᴗ❛๑)۶
隐藏
本帖de打赏:
共
条打赏
隐藏
打赏
收藏
新鲜事
相关主题
DOTA2华丽团战暴力集锦 第1期
弃1从2,众玩家期盼dota2
Steam一天封禁60000个账号创纪录!Dota2外挂作弊最多
Dota2:宙斯改动后泛滥天梯比赛 全民P图吐槽雷云影响游戏平衡
DOTA2 7.18版更新后必须要知道的几件事
《DOTA2》TI8勇士令状上架 奖金已超310万美元
回复
引用
鲜花[
0
]
鸡蛋[
0
]
紫色心情漏电了
ZxID:7327817
关注Ta
注册时间
2009-06-18
最后登录
2024-09-04
发帖
24036
在线
21206小时
精华
0
DB
3
威望
11888
保证金
0
桃子
46
鲜花
0
鸡蛋
0
访问TA的空间
加好友
用道具
发消息
加好友
他的帖子
对该用户使用道具
qq
等级:
元老
配偶:
第334次网恋失败
举报
只看该作者
沙发
发表于: 2018-08-08
0
游戏达人欢迎你٩(๑❛ᴗ❛๑)۶
本帖de评分:
共
0
条评分
隐藏
本帖de打赏:
共
条打赏
隐藏
回复
引用
新鲜事
鲜花[
0
]
鸡蛋[
0
]
« 返回列表
发帖
回复
关闭