现实世界的训练场 AI深度强化学习何时走出游戏?

2018-08-10 爱比价妈妈-能让你省钱的网站

高凉说

  继一年前在“单挑”战胜全球顶级DOTA 2选手Dendi之后,OpenAI机构开发的AI系统于8月6日再下一城,在存在少量限制的条件下击败了由欧美DOTA 2主播以及职业选手代表人类玩家临时组成的队伍,五名玩家的平均实力超过了全球99.95%的DOTA 2玩家。

  DOTA是一款在全球火爆了超过10年的电子竞技游戏,最多允许10名玩家操作10个不同的“英雄单位”进行5V5比赛。每年围绕该游戏举办的“DOTA 2国际邀请赛(简称TI)”也一直是全球奖金额度最高的电子竞技比赛,从2011年的TI 1至2017年的TI 7,其奖金额度从160万美元提升至2500万美元。

  OpenAI是一家成立于2015年底的非营利人工智能研究公司,包括Elon Musk在内的投资人在成立之初承诺投资额达到10亿美元。OpenAI的DOTA 2 AI最早于2017年3月完成第一个强化学习成果,直至6月份才第一次击败了DOTA 2入门级玩家,但到了2017年8月的TI比赛期间,OpenAI在1V1表演赛中完胜了6名顶级职业玩家。

  此次比赛之后,Elon Musk表示:“OpenAI首次在电子竞技中击败世界顶级玩家,这远比围棋等更复杂。”其后不久,OpenAI又在难度远远超过1V1比赛的5V5比赛中取得进展,于2018年6月首次战胜业余玩家。OpenAI的目标是参加即将举办的TI8赛事,不过,OpenAI在官网表示并没有必胜信心。

  深度强化学习 “偏爱”游戏

  2013年,DeepMind公司发表了Deep Q Network,并在Atari游戏中取得了超越人类专家玩家的表现,这种结合了深度学习、强化学习的深度强化学习(DRL)开始成为人工智能在连续、动态、复杂场景中的主流算法。发生几个月之后,Google以6亿美元收购了这家初创公司。

  与语音识别、人脸识别中的深度学习算法不同,深度强化学习主要应用于各种连续空间、连续动作场景中的决策控制,且被视为实现通用人工智能的一条康庄大道。

  Alpha GO是目前深度强化学习算法中第一个被广为人知的成就。而在Alpha Go掀起人工智能热潮之后,游戏圈玩家就开始讨论“人工智能是否能战胜游戏玩家?”结论几乎一边倒,玩家普遍关注“AI没有任何延迟的反应速度”、“对于技能、距离的把握”、“每秒操作速度远超选手”等等机器特点。

  但事实上,科技巨头反而会抛弃这些优势。比如,OpenAI在DOTA 2中将机器人的“地图视野”、“每秒操作数APM”、“反应速度”均设定为玩家正常水准,重要的是,让AI能够学习到像玩家一样的“决策能力”,并且依靠决策、推理取胜。

  在2017年的1V1表演赛期间,OpenAI的机器人通过与顶尖选手对决,学会了“残血勾引”、“反勾引”、“卡视野”等细节战术,甚至,机器人还能开发出玩家从未使用过的冷门战术。此外,微软公司也通过目前最畅销的游戏《我的世界》去训练人工智能,大部分自动驾驶企业通过《侠盗猎车手》游戏去训练人工智能的停车、应变能力。

  不过,游戏中的AI虽然创造了诸多“刷屏”的进展,但也同样会暴露目前AI的瓶颈。2016年11月,暴雪公司宣布与DeepMind达成合作,基于《星际争霸 Ⅱ》研发人工智能。一方面,由于星际争霸游戏中需要操作的单位多达数十、上百个,而且DeepMind选择通过2D图像识别游戏数据,难度均远高于OpenAI,这使得DeepMind目前仍无法研发出一个可以与玩家进行对抗、比赛的AI。而DeepMind认为,要实现这一点,“仍需要在深度强化学习算法及相关领域再次取得突破。”

  “《星际争霸游戏》蕴含了当下人工智能在认知决策层面还没有很好解决的问题:在不完全信息下如何做推理与规划、多智能体协作完成复杂任务、短中长期收益平衡等。相比人工智能下围棋这样的完全信息博弈,星际争霸的决策空间要更大,决策时机更复杂。”启元世界创始人兼CEO袁泉如是向记者分析,启元世界是一家新成立、致力于认知决策智能技术的公司。

  从游戏到现实

  在游戏中训练AI,公认是模拟现实世界最有效的方法。游戏正在以非常接近现实世界、真实经历和真实数据的方式,加快人工智能创新的步伐。

  “在现实场景中,如果要采集和标注训练样本,所消耗的人力、物理成本太大,效果也不一定理想,而在游戏场景下,可以比较容易虚拟和构造、获取各类场景样本,容易对AI算法进行大规模训练和测试。”复旦大学计算机科学技术学院教授张文强如是告诉21世纪经济报道记者,张文强曾带领团队在虚拟场景下采用深度强化学习算法训练机械臂抓取动作。

  该实验采用的控制算法已经相对稳定,但强化学习的样本和对应控制需要大规模的数据支撑,而在学校实验环境中没有充分的数据,构建训练所需场景的难度较大。

  数据、样本不足,这是目前大部分人工智能训练的通病。Google大脑机器人团队软件工程师Alex Irpan曾指出目前深度强化学习的部分缺点,首先就是“样本利用率非常低”,为了让AI表现达到优秀程度需要极为大量的样本、数据进行训练。

  但事实上,除了游戏、电商、互联网广告之外,绝大多数行业难以获取足够的数据进行训练,这也就意味着,缺少足够训练量的AI很难达到让人满意的表现。

  不过,偏爱游戏的AI巨头也在游戏中寻找解决办法。2017年3月,DeepMind发表文章,称已经可以实现让AI同时一次学习多款游戏,正在朝着“迁移学习”迈进。迁移学习指就是从一种行为环境模式中学到东西之后可以用在另一种模式中,这是当前AI研究的一个热点。

  目前,AI行业存在一大通病,针对猫开发的图像识别AI无法识别狗、普通话的语音识别系统无法听懂方言、针对一种病情研发的AI对另一种病情束手无策。而实现迁移学习之后,识别猫的AI同样能识别狗,普通话语音识别只需要极少量的方言训练就可以精通方言。同样,在游戏、虚拟场景中获得优秀表现的自动驾驶、机械控制AI,在经过少量的训练之后,在现实世界中也能取得同样的表现。

  但目前,星际争霸的AI才刚刚起步,DOTA 2玩家如果针对OpenAI使用正常游戏中不会出现的“招数”则容易击败AI。这也就意味着,AI的决策、判断在遇到突发情况时难以做出可靠的判断。现实世界对可靠性的要求要远高于游戏,AI的决策短期内很难走出游戏。

网友评论
 验证码
 

大家都在看
特斯拉私有化计划受质疑 外资参与或面临监管障碍

特斯拉私有化计划受质疑 外资参与或面临监管障碍

21世纪经济报道和佳北京报道业内人士认为,特斯拉私有化成功的概率较低,所需大笔资金未必能落实,而外国资本若参与则可能面临美国监管机构的审查。...

小鸣单车真凉了:12元一辆贱卖 11万用户等退押金

小鸣单车真凉了:12元一辆贱卖 11万用户等退押金

...

人民日报调查游戏成瘾:青少年高发 家长不能一味堵

人民日报调查游戏成瘾:青少年高发 家长不能一味堵

12—16岁的青少年是网瘾高发人群多管齐下治网瘾(聚焦·游戏成瘾现象调查(下))人民日报本报记者王君平游戏成瘾危害大游戏成瘾是患者焦虑、抑郁...

人民日报谈网络购物新亮点:日益品质化 科技来打假

人民日报谈网络购物新亮点:日益品质化 科技来打假

网络购物新场景新力量(扩大内需看亮点·消费⑤)人民日报本报记者王珂禹丽敏方敏在家一键“逛街”,轻松且自在;海量商品挑选,省时又省力;轻松货比...

人民日报谈移动支付安全:用户失手点错 平台应帮挽回

人民日报谈移动支付安全:用户失手点错 平台应帮挽回

拧紧移动支付的“安全阀”(生活漫步)人民日报齐志明移动支付作为“互联网+”的创新应用场景之一,“+”的是便利、效率,更是安全,有安全保障的创...

格列卫:一个神药的传奇——愿病者有其药

格列卫:一个神药的传奇——愿病者有其药

来源:我是科学家iScientist这两天,徐峥与宁浩共同监制,徐峥亲自主演的一部喜剧电影《我不是药神》刚刚在全国院线正式上映。这部在点映阶...

空姐乘滴滴遇害嫌犯已锁定 曾微信同事称司机想亲她

空姐乘滴滴遇害嫌犯已锁定 曾微信同事称司机想亲她

澎湃新闻记者彭瑜5月10日,澎湃新闻从知情人士处获悉,郑州警方已锁定“空姐乘坐滴滴顺风车遇害”案嫌疑人,正全力抓捕。据遇害空姐李某家属的朋友...

比特大陆“暴利经”:靠挖矿机年入百亿元

比特大陆“暴利经”:靠挖矿机年入百亿元

本报记者陈佳岚李哲北京报道炙手可热的比特币让相关设备制造商赚得“盆满钵满”。北京比特大陆科技有限公司(以下简称“比特大陆”)是一家初创公司,...

“国产三文鱼”这样检测寄生虫!用显微镜吗?

“国产三文鱼”这样检测寄生虫!用显微镜吗?

来源:饮食参考公众号龙羊峡的养殖淡水虹鳟鱼在市场上冒充大西洋鲑(真三文鱼)已有多年,一直都是闷声发大财的状态。最近不知道搭错了哪根筋,非要到...

海尔热水器突然爆炸 3岁女童脸被烫伤构成6级伤残

海尔热水器突然爆炸 3岁女童脸被烫伤构成6级伤残

本文来自法制晚报法制晚报·看法新闻(记者周蔚)母亲在家给三岁女儿洗澡时,海尔热水器突然爆炸,母女俩全身被烫伤,女童面部瘢痕严重构成六级伤残,...

闲鱼的困惑:买家遭遇交易“陷阱” 维权成本高昂

闲鱼的困惑:买家遭遇交易“陷阱” 维权成本高昂

李甜李静不到10分钟,清华大学运维工程师高英凯向《中国经营报》记者展示的一台苹果笔记本电脑,在未充电的情况下,电量由开机时的26%自动上升至...

松下考虑出售苏州生产厂 交易价格或超4.5亿美元

松下考虑出售苏州生产厂 交易价格或超4.5亿美元

...

“头脑王者”仍未恢复服务 但知乎推出了新答题游戏

“头脑王者”仍未恢复服务 但知乎推出了新答题游戏

来源:界面新闻作者:彭新2月12日,知乎上线了两个答题类产品。一个是知乎App端的“知识之王”答题闯关游戏,另一个则是微信小程序端“知乎答题...

链家上线行业公开平台“贝壳找房” 安居客如何应对

链家上线行业公开平台“贝壳找房” 安居客如何应对

本报记者 祁三连 北京报道“任何一个公司讲一个故事走不通,转到另外一个故事,这都会对内部产生巨大的投资成...

长生生物科技公司狂犬疫苗造假引众怒 竟然还有前科

长生生物科技公司狂犬疫苗造假引众怒 竟然还有前科

记者粟灵  编辑 王芳洁正当《我不是药神》引发的医药产业大讨论如火如荼之际,一则关于狂...

淘宝天猫优惠券、奇趣发现、9块9、天天折扣尽在

爱比价妈妈-手机版-电脑版-文章首页