DeepMind给最厉害的AI测了IQ:结果让人轻松了不少

2018-07-23 爱比价妈妈-能让你省钱的网站

高凉说

  生活在一个AI“泛滥”的时代,我们几乎每天都能看到AI研究上的最新进展。昨天,AI打DoTA战胜人类了;今天,AI能自己找路了;明天,AI能假冒人类打电话了。在担心AI会灭掉人类的人们眼中,AI正像一只怪物一样野蛮生长,像一只侵略军一样从远方大跨步逼近。

  然而实际上,你所看到的这些进展,只是不同的AI在特定方向的进步。虽然当前基于深度学习的AI热潮已经有五六年了,还是没有一个独立的AI,像一个独立的人一样,能够优秀地执行多种任务。

  人们在形容AI时,通常会用这样一种说法:这个AI的智商,跟三岁小孩差不多。智商 (Intelligence quotient)简称IQ,是评价人类智商一个普遍接受的标准。你有智商,我也有智商,就连三岁小孩也有智商。接下来问题来了:既然说AI跟三岁小孩差不多,那么它的智商到底有多少呢?

  得给AI测测智商了。

  DeepMind要给AI测IQ

  自AlphaGo横空出世以来,AI在解决一些复杂的、策略性的问题上,能力已经得到了证明。但如果想要更像“人”,AI必须也拥有像人类一样的抽象理解能力。

  现在的AI计算能力不用说了,推理能力也很强,所以只剩抽象理解能力了。谷歌旗下的AI科研机构DeepMind认为,“基于神经网络的机器学习模型取得了惊人的成绩,但想要衡量其推理抽象概念的能力,却非常困难。”  

  为了搞清楚现在的AI在抽象理解能力上究竟实力如何,DeepMind还真给AI设计了一套测试题:

  这套测试题,借鉴了人类的IQ测试里著名的瑞文推理测验:给定一组图片,找到符合其“演进”规律的图片。

(图片来源:DeepMind论文)(图片来源:DeepMind论文)

  在这种测试中,题目里并不会告诉你要找到符合什么标准的图形,而是需要我们根据日常生活中学习或掌握到的一些基本原则,来理解和分析测试中出现的简单图案。 

  要找到正确的答案,往往要借鉴我们从生活中明白的“演进”规律。比如小树苗长成大树,比如从0到1、2、3、4、5的加法,再比如加减乘除。以上这些,就是我们生活中所提炼出的抽象的“演进”(progression)的意义,就是人类的抽象理解能力。

  “但是,我们现在还没有找到办法,能让AI也可以从‘日常经验’中学到类似的能力。”DeepMind在论文中说。

  “不过,我们依然可以很好地利用人类的这种视觉抽象逻辑测试,来设计一个实验。在这个测试中,我们并不是像人类测试那样,考察从日常生活到视觉推理问题的知识转移。而是研究AI在将知识从一组受控的视觉推理问题,转移到另一组问题的能力。” 

  简单翻译一下这段话就是:DeepMind先给AI喂一组由三角形构成的图像的视觉推理题库,等训练的差不多了,再出一组由方块构成的视觉推理题,让AI去回答,看它是能随机应变举一反三,还是学会了三角,换成方块就不灵了。

  机器人仍需努力

  对于担心AI取代人类的朋友来说,DeepMind的一部分实验结果确实是个好消息:一些最棒的AI模型,在这个IQ测试中的表现得并不咋样。

  正如预期的那样,当训练集和测试集所采用的抽象元素相同时,多个AI模型都表现出超过75%的准确率。 

  然而,当测试集和训练集出现变化,甚至有时候只是把黑点换成较暗的浅色圆点,AI的表现就会像无头苍蝇一样,失去了准星。 

(一些知名AI模型的表现 图片来源:DeepMind论文)(一些知名AI模型的表现 图片来源:DeepMind论文)

  上面这些都是深度神经网络领域的当红炸子鸡,测起智商来却没那么灵光了。

  ResNet (Deep Residual Network),即深度残差网络在其中一组测试中仅仅得到22.4%的低分。要知道,它的提出曾被形容为CNN(卷积神经网络)的一个里程碑式事件,它在网络深度上比其他模型提升了n个量级,更重要的是它的残差学习方式,改良了模型的架构,因此一出现就秒杀众前辈。 

  测试中表现最好的WReN模型,则是DeepMind在关系网络(Relation Networks)模型基础上改良的版本。它增加了对不同图像组合之间关系的分析,并可以对这类IQ测试的各种可能性结果进行评估。

  不过,DeepMind针对这个测试的逻辑,对一些模型进行改良,改良后的模型表现出明显的提升。

  比如,在一些模型中,DeepMind加入了元标记(meta-targets)的辅助训练方法,让模型对数据集背后体现出的形状、属性(形状的数量、大小、颜色深浅等)以及关系(同时出现、递减、递增等等)进行预测,当这部分预测准确时,最终回答的准确率就明显出现提升,预测错误时,回答准确率明显下降。一些极端情况下,模型回答的准确率更是从预测错误时的32%提升至了87%。 

(元标记预测准确度与最终答案准确率的关系图)(元标记预测准确度与最终答案准确率的关系图)

  DeepMind表示,他们设计的这个实验,最终目的并不是为了让AI能够通过这种IQ测试。他们关注的是AI泛化能力的问题。

  泛化是指模型很好地拟合以前未见过的新数据的能力,这是机器学习界的术语,你也可以粗暴的理解成一个AI模型能否在各类场景中“通吃”。AI的泛化能力越强,离啥都能干的所谓“通用人工智能”就越近。

  DeepMind在博客最后这样说道:

  研究表明,寻找关于泛化问题的普遍结论可能没有任何意义。我们测试的神经网络在某些泛化方案中表现优秀,但是其他方案下却很糟糕。

  诸如所使用模型的架构、模型是否被训练从而能解释答案背后的逻辑等一系列因素,都会对泛化效果带来影响。而在大多数情况下,当需要处理过往经验从未涉及的、或完全陌生的情景时,这些AI的表现很糟糕。

  至少现在看来,AI还有很长的路要走啊。

网友评论
 验证码
 

大家都在看
直击|传哈罗单车将完成10亿美元融资 官方不予置评

直击|传哈罗单车将完成10亿美元融资 官方不予置评

新浪科技讯7月23日下午消息,今日有媒体报道称,哈罗单车即将完成10亿美元新一轮融资。哈罗单车方面对此表示不予置评。哈罗单车于2016年11...

传蚂蚁借呗8月1起全部停止 支付宝:谣言

传蚂蚁借呗8月1起全部停止 支付宝:谣言

新浪科技讯7月23日下午消息,近日网上有传言称,由于央行政策,蚂蚁金服8月1日起,借呗将全部停止,花呗使用额度限每笔1000元,最高开放额度...

华帝股价收盘报13.88元 上涨1.24%

华帝股价收盘报13.88元 上涨1.24%

 新浪科技讯7月23日下午消息,华帝(002035.SZ)股价收盘报13.88元,上涨1.24%。当前华帝市值121.12...

传阿里巴巴参与AI初创企业旷视科技超6亿美元的融资

传阿里巴巴参与AI初创企业旷视科技超6亿美元的融资

新浪科技讯北京时间7月23日下午消息,据彭博报道,阿里巴巴据悉参与AI初创企业旷视科技超6亿美元的融资。...

专家解读:有关疫苗的14个基本知识 (更新中)

专家解读:有关疫苗的14个基本知识 (更新中)

来源:北京科技报疫苗事件让人们愤怒、恐惧、迷失。公众该对所有疫苗失去信任吗?专家解读有关疫苗的14个基本知识,为你拨开迷雾,解除疑惑。解读专...

格列卫:一个神药的传奇——愿病者有其药

格列卫:一个神药的传奇——愿病者有其药

来源:我是科学家iScientist这两天,徐峥与宁浩共同监制,徐峥亲自主演的一部喜剧电影《我不是药神》刚刚在全国院线正式上映。这部在点映阶...

空姐乘滴滴遇害嫌犯已锁定 曾微信同事称司机想亲她

空姐乘滴滴遇害嫌犯已锁定 曾微信同事称司机想亲她

澎湃新闻记者彭瑜5月10日,澎湃新闻从知情人士处获悉,郑州警方已锁定“空姐乘坐滴滴顺风车遇害”案嫌疑人,正全力抓捕。据遇害空姐李某家属的朋友...

“国产三文鱼”这样检测寄生虫!用显微镜吗?

“国产三文鱼”这样检测寄生虫!用显微镜吗?

来源:饮食参考公众号龙羊峡的养殖淡水虹鳟鱼在市场上冒充大西洋鲑(真三文鱼)已有多年,一直都是闷声发大财的状态。最近不知道搭错了哪根筋,非要到...

比特大陆“暴利经”:靠挖矿机年入百亿元

比特大陆“暴利经”:靠挖矿机年入百亿元

本报记者陈佳岚李哲北京报道炙手可热的比特币让相关设备制造商赚得“盆满钵满”。北京比特大陆科技有限公司(以下简称“比特大陆”)是一家初创公司,...

松下考虑出售苏州生产厂 交易价格或超4.5亿美元

松下考虑出售苏州生产厂 交易价格或超4.5亿美元

...

海尔热水器突然爆炸 3岁女童脸被烫伤构成6级伤残

海尔热水器突然爆炸 3岁女童脸被烫伤构成6级伤残

本文来自法制晚报法制晚报·看法新闻(记者周蔚)母亲在家给三岁女儿洗澡时,海尔热水器突然爆炸,母女俩全身被烫伤,女童面部瘢痕严重构成六级伤残,...

“头脑王者”仍未恢复服务 但知乎推出了新答题游戏

“头脑王者”仍未恢复服务 但知乎推出了新答题游戏

来源:界面新闻作者:彭新2月12日,知乎上线了两个答题类产品。一个是知乎App端的“知识之王”答题闯关游戏,另一个则是微信小程序端“知乎答题...

闲鱼的困惑:买家遭遇交易“陷阱” 维权成本高昂

闲鱼的困惑:买家遭遇交易“陷阱” 维权成本高昂

李甜李静不到10分钟,清华大学运维工程师高英凯向《中国经营报》记者展示的一台苹果笔记本电脑,在未充电的情况下,电量由开机时的26%自动上升至...

蚂蚁金融副总裁徐浩:现金贷实际上就是高利贷

蚂蚁金融副总裁徐浩:现金贷实际上就是高利贷

新浪财经讯由新华社瞭望智库、新华社《财经国家周刊》共同主办的“2017中国新金融高峰论坛”于12月9日在北京举行。主题为“回归本源,优化结构...

链家上线行业公开平台“贝壳找房” 安居客如何应对

链家上线行业公开平台“贝壳找房” 安居客如何应对

本报记者 祁三连 北京报道“任何一个公司讲一个故事走不通,转到另外一个故事,这都会对内部产生巨大的投资成...

淘宝天猫优惠券、奇趣发现、9块9、天天折扣尽在

爱比价妈妈-手机版-电脑版-文章首页