遇劣势变蠢、发语音嘲讽……OpenAI这操作跟谁学的?

2018-08-26 爱比价妈妈-能让你省钱的网站

高凉说

  来源:量子位 新浪科技

  文:夏乙 中奇 

  刚刚,中国网友全村的希望LGD惜败温哥华;

  两天前,AI全村的希望OpenAI Five更是在二连败之后,提前为TI之旅画上了句号。

  月初轻松击败7000分半职业五人组,17天过后却输给职业战队,还被越洋围观的群众骂成小学生。这个AI DOTA2选手的经历,可以说大起大落。

  两天的比赛,也给中国网友们留下了众多疑问:

  为什么大哥和酱油打法差不多?
为什么劣势下出现那么多奇葩操作?
为什么无脑冲塔、随意插眼、空放大招?
那些坏毛病是跟人类对手学的吗?
AI竟然学会发轮盘语音嘲讽人类了?
崩盘了为何还不GG?

  为了弄清楚这些问题,量子位和新浪科技查阅了现有的各种资料,还联系到直接深度参与了这个项目的OpenAI研究员David Farhi,来答疑解惑。

  接下来,更全面深入地了解一下这个AI吧。

  疯狂推进模式已成过去

  8月6日那一场人机大战中,AI抱团推塔杀人之凶猛,给围观群众都留下了深刻印象。

  但是,这种疯狂推进的打法在前两天的比赛中没有出现,而且,可能,再也回不来了。

  究其根本原因,应该是游戏规则的变化。

  OpenAI在赛后总结中提到,他们在TI8上玩的版本,更接近选手们眼中真正的DOTA:打破了每个英雄一只无敌信使的配置,改成了人类比赛中通用的每队一只普通信使。

  我们在之前的报道中也提到过,去掉这个限制是在上周六,AI随后训练了4天就去比赛了。

△ OpenAI Five的进化历程△ OpenAI Five的进化历程

  当然,4天对AI来说并不短。按照OpenAI之前公布的配置,AI训练用了256块P100 GPU和12.8万个CPU核心,每天的训练量相当于打了180年游戏。4天,就是人间720年。

  可是信使裁员80%还丧失了特异功能,确实让AI有点不适应。

  OpenAI Five之前的疯狂推进打法,会靠着信使源源不断运来的补给,维持割草一般的推塔节奏。

  没有了5只无敌信使,这样的打法就行不通了。在每方一只信使的比赛里,如果还要运输之前那么多补给,是要排队的。于是,英雄被打到残血就只能回家泡温泉养伤。

  Farhi透露,现在AI在训练环境中自我对战,平均每局要打上将近50分钟,比以前慢了不少。

  前两天的比赛也表明,想要和人类职业选手抗衡,AI需要适应这个设置,培养新的战术和节奏。

  不跟人类学习

△ rOtk△ rOtk

  这两天,AI的操作收获了各路网友的吐槽:
“是不是昨天跟w33学的?”
“是不是刚才被rOtk教坏了?”
甚至有网友想要故意带坏AI。

  不好意思,要让大家失望了。

  Farhi解释说,很多人在这一点上都误会了,OpenAI Five根本不跟人类学习。

  训练AI、让它去和人类战斗的过程,实际上是这样的:

  先在庞大的计算机集群上,让AI自己跟自己反复对战,告诉它赢得比赛、做出某些好操作就能获得奖励,让它从结果中学习。要和人类对战的时候,OpenAI就从自我对局环境中导出最新版的AI来用。

  但是,他们不会把与人类对战的数据输入到AI的学习系统中去。

  所以说,我们在比赛中看到的那些进步,和那些诡异操作,都是AI在自我对战过程中摸索出来的,想要靠示范带坏AI,目前还做不到。

  这种单纯的训练环境,也带来一个副作用,那就是网友们吐槽的“AI被打出bug来了”。

  被打蠢只因训练太简单

  “打出bug”一般都出现在后期劣势阶段。其实,AI这两天在战斗的前20分钟里,打得都算不错。

  究其根本原因,在于AI在训练中完全没见过这么强大的对手:训练环境里陪AI玩游戏的,都是它自己的复制版或旧版。

  能入围TI的那种高手,AI在训练时从来没遇到过,这么大的劣势,AI也几乎没经历过。

  为了让AI接受更艰苦的训练,OpenAI研究员们其实也试着提升难度,比如说,他们会强行为其中一方创造优势,让某些英雄开局就是4级。这种设置,类似于围棋的让子。

  但是现在看来,“让子”所带来的难度提升,还是不太够。

  说不定,等OpenAI把人类的经验也引入到AI训练中,会再带来一波提升。不过,这个工程量浩大优先级不高的想法,还没有提上日程。

  自暴自弃?

  那些愚蠢的操作,是不是真的意味着一陷入空前危机,AI就出bug了?

  倒也不是。

  想要完全理解AI的动机,搞清楚它在想什么,现在还很难,不过,熟悉OpenAI Five的研究员们做出了不少猜测。

  他们认为,这些奇葩操作并不是bug,反而可能正是AI在想办法翻盘。

  Farhi谈到了这样一种推测,AI在训练时遇到的对手除了水平不够高之外,还有一个特点:几乎不失误。(emmm…我们看到的奇葩操作,对AI来说都不算失误)

  人类在劣势中坚持补刀抢人头,大多数情况下根本不能缩小和对手的差距,但是,如果对手失误,翻盘的机会就来了。可是对于AI来说,它自己几乎不会失误,它练习时的对手也一样。于是,在AI的世界里就没有“你失误我翻盘”的概念。

  因此,AI为了翻盘,会做出种种超越常规的操作,看在人类眼里是自暴自弃,其实人家AI觉得,这样起码不是必败无疑啊!

  当然,也说不定是在AI拖延时间:多扛一会儿再输,奖励会少被扣掉一点嘛。

  1号位5号位?AI通通不分

  收获吐槽能量最多的,除了“打出bug”可能就要数AI战队的大锅饭政策了。

  人类战队中,总有1-5号位的角色区分,大哥负责带着队伍走向胜利,辅助负责到处插眼。上图显示的是AI对战中国TI冠军联队时双方财产状况,从中也能看出,人类战队里不同的角色,贫富差距巨大。

  而AI在经济上就相对平均得多,打法上也看不出什么分工。

  原因很简单,AI队伍中的5个智能体,真的是5个一模一样的LSTM神经网络,没有角色的区分。它们甚至会尽量让所有英雄保持差不多的升级节奏。

  但是,AI也没有对所有英雄一视同仁。在让AI选阵容的时候,己方和敌方已经选了什么英雄会影响到它的选择,AI也觉得队伍里的英雄在技能、属性上有所差异更好。

  AI会不会自己在训练中逐渐发现有的英雄注定是酱油呢?这只能等OpenAI慢慢公布了。

  人类的玩法,AI并不买账

  虽说OpenAI没有强制为智能体划分核心和酱油英雄,但其实在OpenAI Five里,有不少硬编码的部分。

  比如买装备。什么时候该买什么装备,人类是给AI设定了规则的,买眼(守卫)这件事,就是人类强制AI完成的。

  AI塔下插眼、自家野区乱插眼、甚至在家里插眼,可能就是对这个硬编码的抗争。

  Farhi讲过这样一种猜测:工程师强制AI买眼,可是AI想用那个物品栏买别的东西……于是,它们就只好把眼随机扔一个地方。

  除了强制AI买眼,工程师们还对该升级什么技能、什么时候买活、信使怎么运输物品等等都做了硬编码。这些方面,都是神经网络自学不太成功的地方。

  比如说买活这件事。OpenAI团队曾经放权给神经网络,让它自己决定要不要买活。结果,AI完全放弃了这个操作,它认为什么时候买活都不划算。于是,人类越俎代庖地设定了规则。

  不过这些规则,也不见得会持续存在下去。OpenAI用来打DOTA的模型一直在迭代,比如现在的OpenAI Five,就去掉了去年1v1版本专门针对卡兵设置的奖励。

  Farhi说,他们又想出了一种方法,打算继续尝试让AI自己学买活。

  翻盘无望为何不GG?

  硬编码的不止这些游戏操作,还有网友们喜闻乐见的“AI用聊天轮盘发了个消息”。

  又让大家失望了,发消息这件事,也不是AI自己学的。

  那……到翻盘无望塔下乱逛的时候,发个GG也是可以的吧?的确可以,不过,OpenAI在TI8上没有给AI这个权利。

  原因很简单,投降的依据当然是胜率,可是这两天出场的AI有个bug,自信心有点爆棚,胜率预测实在是不太靠谱。

  这个bug,OpenAI正在慢慢修复中。

  传送门

  两场比赛过去,我们意犹未尽,十分期待OpenAI卷土重来,也很想亲手和它打一局。

  好消息是,卷土重来可能不用等明年上海见。Farhi说,他们再努力几周或者几个月,就打算找职业战队再打一场。

  坏消息是,把OpenAI Five放到Steam创意工坊上造福大众这件事,还没有提上日程,还要再提升提升。

网友评论
 验证码
 

大家都在看
2016年以来共有589家高新技术企业实现IPO

2016年以来共有589家高新技术企业实现IPO

上证报讯据中国证券监督管理委员会主席助理张慎峰介绍,近年来,我们始终保持定力,持续推进新股发行常态化,引导社会资金向具有核心竞争力的优质企业...

滴滴:三个月两条生命 除了赔三倍还做了什么

滴滴:三个月两条生命 除了赔三倍还做了什么

来源:金融八卦女公众号作者:金璜仅仅三个月,两条鲜活的生命在滴滴顺风车上消失。除了从没赔钱,到赔3倍,滴滴还做了什么?作为滴滴领导层的程维和...

直击|伴鱼黄河:在线教育≠互联网教育 要持续迭代

直击|伴鱼黄河:在线教育≠互联网教育 要持续迭代

新浪科技讯8月26日下午消息,伴鱼创始人兼CEO黄河近日指出,在线教育不一定是互联网教育,后者能通过线上的形式更好的解决教育资源的分配问题,...

中国5G在澳洲被禁:“只因我们是一家中国企业”

中国5G在澳洲被禁:“只因我们是一家中国企业”

堪培拉,“民主世界的政变之都”,绝非浪得虚名。周五,澳大利亚总理特恩布尔因党内大量不信任票下台,前财长斯科特·莫里森成为十年来的第六任总理。...

顺风车下线,滴滴在为自己的傲慢买单

顺风车下线,滴滴在为自己的傲慢买单

温州乐清姑娘乘滴滴顺风车遇害,滴滴公司处理报警时的搪塞推责和冷漠机械,遭到唾弃,一场关于滴滴的大规模舆论讨伐就此展开。目前滴滴在全国范围内下...

格列卫:一个神药的传奇——愿病者有其药

格列卫:一个神药的传奇——愿病者有其药

来源:我是科学家iScientist这两天,徐峥与宁浩共同监制,徐峥亲自主演的一部喜剧电影《我不是药神》刚刚在全国院线正式上映。这部在点映阶...

海尔热水器突然爆炸 3岁女童脸被烫伤构成6级伤残

海尔热水器突然爆炸 3岁女童脸被烫伤构成6级伤残

本文来自法制晚报法制晚报·看法新闻(记者周蔚)母亲在家给三岁女儿洗澡时,海尔热水器突然爆炸,母女俩全身被烫伤,女童面部瘢痕严重构成六级伤残,...

空姐乘滴滴遇害嫌犯已锁定 曾微信同事称司机想亲她

空姐乘滴滴遇害嫌犯已锁定 曾微信同事称司机想亲她

澎湃新闻记者彭瑜5月10日,澎湃新闻从知情人士处获悉,郑州警方已锁定“空姐乘坐滴滴顺风车遇害”案嫌疑人,正全力抓捕。据遇害空姐李某家属的朋友...

闲鱼的困惑:买家遭遇交易“陷阱” 维权成本高昂

闲鱼的困惑:买家遭遇交易“陷阱” 维权成本高昂

李甜李静不到10分钟,清华大学运维工程师高英凯向《中国经营报》记者展示的一台苹果笔记本电脑,在未充电的情况下,电量由开机时的26%自动上升至...

比特大陆“暴利经”:靠挖矿机年入百亿元

比特大陆“暴利经”:靠挖矿机年入百亿元

本报记者陈佳岚李哲北京报道炙手可热的比特币让相关设备制造商赚得“盆满钵满”。北京比特大陆科技有限公司(以下简称“比特大陆”)是一家初创公司,...

“国产三文鱼”这样检测寄生虫!用显微镜吗?

“国产三文鱼”这样检测寄生虫!用显微镜吗?

来源:饮食参考公众号龙羊峡的养殖淡水虹鳟鱼在市场上冒充大西洋鲑(真三文鱼)已有多年,一直都是闷声发大财的状态。最近不知道搭错了哪根筋,非要到...

首支公益无人机救援队成立 京东:就近调配自营物资

首支公益无人机救援队成立 京东:就近调配自营物资

新浪科技讯5月11日上午消息,中国灾害防御协会与京东集团签署关于无人机参与救援工作的合作协议,这标志着着首个全国性公益无人机救援队正式成立。...

长生生物科技公司狂犬疫苗造假引众怒 竟然还有前科

长生生物科技公司狂犬疫苗造假引众怒 竟然还有前科

记者粟灵  编辑 王芳洁正当《我不是药神》引发的医药产业大讨论如火如荼之际,一则关于狂...

松下考虑出售苏州生产厂 交易价格或超4.5亿美元

松下考虑出售苏州生产厂 交易价格或超4.5亿美元

...

链家上线行业公开平台“贝壳找房” 安居客如何应对

链家上线行业公开平台“贝壳找房” 安居客如何应对

本报记者 祁三连 北京报道“任何一个公司讲一个故事走不通,转到另外一个故事,这都会对内部产生巨大的投资成...

淘宝天猫优惠券、奇趣发现、9块9、天天折扣尽在

爱比价妈妈-手机版-电脑版-文章首页