透视科大讯飞“同传造假”:机器翻译之困

2018-10-01 爱比价妈妈-能让你省钱的网站

高凉说

  近日,人工智能语音领域领军企业科大讯飞被曝出“同传造假”,科大讯飞官方回应这是由于与同传译员沟通不足造成的误会。

  据悉,引发此次事件是在2018创新与新兴产业发展国际会议上,该会议曾以“机器翻译”作为宣传,科大讯飞官方最近解释称这种方式是“人机耦合”,并承认机器翻译仍难以代替人工。

  物联网资深专家杨剑勇对《中国经营报》记者表示,科大讯飞提出人机耦合背后,是智能(机器)翻译技术相对语音识别技术难度更大。

  近年来,随着AI的热度递增,机器翻译也呈现出爆发之势。但根据本报记者了解,实际行业现状是目前机器翻译仍难以达到接近人类对话的效果,尽管不同企业开始竞相研发机器翻译新品,但如何令翻译更准确是AI领域待解的一大难题。

  技术鸿沟未跨越

  曾在脸书担任软件实习工程师的王谟,目前在知乎上有6万关注人次,是语音领域方面的专业答主。王谟告诉记者,“语音识别”是指把声音转换成文字的过程,不包括后续的理解、翻译等。而“同传”(同声传译)指的是在(识别)一个人说话的同时翻译成另一种(语言)。

  业内普遍认为AI同传比语音识别更难,只有先识别才能进行翻译。据了解,搜狗机器同传技术系统需要将语音预处理、语音识别、文本预处理、机器翻译、语音合成五项技术模块进行结合。

  中国传媒大学研究大数据与人工智能方向的教授沈浩认为,目前机器翻译这方面的技术已经成熟,水平强于(英语)六级,但易受处于近场或远场、有无噪音等因素影响。

  沈浩对本报记者举例:“如果是日常生活用语,以及标准的一些话语,都没有问题,但涉及到诗、歌、抒情散文等,翻译结果容易出现问题。”

  北京市速记协会理事长唐可为认为同传翻译和速录都要求精准,速录员和同传翻译在速录和翻译过程中要求精简记录,进行语义理解后更接近讲话者的记录,而目前的同传翻译并不能做到结合上下文完整表达句子意思。

  “很多时候,机器速录、机器翻译后还需要人为进行实时修改,甚至更考验速录员和同传翻译,还更耗费时间。”唐可为表示。

  搜狗语言交互技术中心技术总监陈伟表示,同传场景对语音识别的要求很高,错一个字对于源语言的理解基本不受影响,但若将同传后的文字翻译成另一种语言,可能整句都是错的。

  科大讯飞方面则对本报记者表示,目前机器翻译已经取得非常大的进步,能够帮助人们在一些场景中处理语言交流的问题,但距离会议同传以及高水平翻译所讲究的“信、达、雅”(翻译中常要求的忠实原文、通顺畅达、译文优美三大原则)还存在很大的差距。

  尽管有深度学习技术在语音、翻译等领域的快速突破以及大数据的红利,但是相比于训练有素的人工而言,机器实际上缺乏语音识别的稳定性、机器翻译的稳定性、对语言理解和再创造的能力。

  此外,机器同传要与人工同传媲美,就要聪明而灵活地结合前后内容进行“创作”。陈伟表示,人工同传是对译文二次创造,因此译文往往流利度高,而机器对于口语化、命名实体和多义词较多等情况下翻译效果不够好,目前(利用机器进行)同传翻译仍基于当前单句进行翻译,上文的历史信息无法较好使用,以及在语言的理解和再创造的能力方面,目前机器无法基于原文进行引申和扩展,确保翻译效果的流畅性。

  仍具备实际性价值

  继前两年微软百度腾讯、科大讯飞、谷歌等纷纷推出翻译软件、发布翻译机器后,本报记者梳理发现,今年市面上仅公开发布的产品就有近十款,包括搜狗推出的搜狗旅行翻译宝、搜狗速记翻译笔、搜狗录音翻译笔记、搜狗翻译宝pro。华为、360手机、OPPO在推出新机时以机器翻译为卖点,甚至业内一家手机品牌糖果手机直接打出了“翻译手机”的概念,而猎豹移动也推出了一款小豹AI翻译棒。

  “翻译机不是高高在上的黑科技,而是通过场景落地,解决用户在特定场景中需求的真正有用的技术。” 猎豹移动CEO傅盛在推出小豹AI翻译棒时称。

  易观互动娱乐组群高级分析师殷实告诉本报记者,从商业或者专业会议的角度来看,翻译机还未能代替人工翻译在正式场合运用,更多是扮演一个辅助工具角色。“今年来,翻译技术火爆的原因主要在于它对翻译精度要求不高场合下有很高的使用价值。”

  殷实认为,目前,翻译机在市场上主要用于在类似出行、旅游等对翻译精度要求相对低一些的行业,为游客解决在国外语言不通的问题,甚至在一定程度上推动了旅游业的发展。

  据易观千帆的数据,旅游APP的月活跃用户量一年内增长了近30%,国外游的热度也一直没有减退。殷实认为,不能因为机器翻译当下存在问题就否认它存在的价值。

  陈伟表示,对比人工同传和机器同传的能力,机器相较于人的优势是:机器基于海量数据能针对某个领域进行快速学习,机器同传能够忠实原文,一般不会遗漏译文,可长时间记忆,机器能够实现快速、高并发的部署,同时支持多场会议的同传,很大程度缓解人工同传资源不足的问题,降低同传成本。

  尽管机器翻译的发展未完全尽如人意,但是陈伟认为机器翻译目前满足部分使用需求的价值已经显现。近些年,各种规模的国际交流越来越多,从行业大会到闭门小会,甚至到课堂培训,均存在同传的需求,而目前虽然有不错的大量(人工)同传从业者,但事实上还仍满足不了国际交流的需求。

  沈浩认为,目前机器学习算法的趋势慢慢接近人工同传的可靠性,人们应该注重事物未来的发展趋势。

  准确度壁垒待破

  本报记者注意到,市场也不乏有众多声音称某某产品语音识别准确率、翻译准确率能达到多少。就语音识别准确率而言,各家公司自有其说法。

  搜狗、百度和科大讯飞三家公司2016年11 月各自宣布其中文语音识别准确率达到了 97%。搜狗称其语音翻译的准确率可以达到90%。今年6月,央广网科技报道称,目前讯飞输入法的语音识别准确率提升到98%。近日,科大讯飞方面对本报表示,其机器翻译已经达到大学六级水平,2019年将达到英语专业八级水平。

  王谟告诉本报记者,行业内一般采用“词错误率”进行测评,这个标准主要是看测试所用的“数据集”的难度,不同的数据集难度不同,所以单看一个词错误率的数字,并不能判断系统性能的好坏。如果要对技术进行测评,必须指明在哪个数据集上取得了这样的词错误率。王谟举例表示,在一个叫 Switchboard 的数据集上,目前微软和 IBM 都做到了百分之五点几的词错误率,已是行业领先。

  王谟告诉记者,用标准数据集来测试也有局限性,一些标准数据集里没有考虑到噪音环境,另外,有团队可能专注于“刷榜”,把标准数据集上的词错误率刷到很低,但一换成别的数据,就会“现出原形”。

  “这也是为什么有些时候一个宣传得很牛的产品到了实际中就各种不好用。毕竟实际环境是千变万化的,如果训练时没有覆盖到这么广的实际场景,在实际中就容易出问题。”王谟向本报记者解释道。

  陈伟告诉本报记者,“现在很多翻译机的产品,特别是低价的翻译机更多是从第三方公司获取,这种情况下很难做二次的优化和开发。”

  “根据我们在同传产品得到的经验,它并不是简单的‘语音识别+翻译’,出现‘1+1>2’的能力,往往(现实是)远远小于2,所以我们要把单点能力做好,同时产生‘1+1=2’甚至远大于2的效果。这件事情是目前搜狗同传和搜狗翻译宝具有的技术壁垒。”陈伟说。

  沈浩认为各主要玩家的语音识别准确率已经差别不大,厂商们均掌握着技术原理,只是看哪家能够不断地去训练,对结果进行提升,如准确率从95%提升至96%,但实际上达到95%的准确率时,就可以将其现实化和商业化。“所以判断他们哪一款产品优秀,我也只能谈他们的界面、开源甚至使用成本等其他方面。”沈浩表示。

  沈浩表示,从国内外对比上,谷歌能够实现全球多种语言之间的互译,而国内企业,例如科大讯飞主要是汉语以及方言的识别,或解决主流使用语言的翻译。

  陈伟表示,搜狗正在横向扩展多语种的机器翻译技术,实现跨语音交流,“在这个技术上面临的很大问题是,如果我们没有足够的数据怎么办?在没有足够数据时,我们会考虑要不要面向于低资源(一门语言的数据很少,不足够训练语音识别或机器翻译系统的资源),或者是做没有数据、单向的翻译语料,或者是文本语料,做两个语种之间的翻译。”陈伟表示,“这两项技术是目前我们着重做的。”

网友评论
 验证码
 

大家都在看
外媒:马斯克和解反映SEC加大对企业高管个人追责

外媒:马斯克和解反映SEC加大对企业高管个人追责

新浪科技讯北京时间10月1日上午消息,一位证券法专家表示,特斯拉首席执行官埃隆·马斯克的高调和解体现了美国证券交易委员会(SEC)最近不仅开...

特斯拉与SEC和解协议将成司法部调查和诉讼的证据

特斯拉与SEC和解协议将成司法部调查和诉讼的证据

新浪科技讯北京时间10月1日上午消息,专家表示,特斯拉与美国监管机构达成和解协议一事虽然会为卖空者提出诉讼以及司法部进行调查提供证据,但这也...

多名高管失联 数据优势渐失:艾瑞咨询前景待考

多名高管失联 数据优势渐失:艾瑞咨询前景待考

张惠芳、张靖超近日,艾瑞咨询被曝出多名高管失联。9月19日晚,艾瑞咨询官方微博发布声明,称公司个别管理人员应相关部门要求协助调查,暂时无法取...

58同城:“神奇”之后转身难

58同城:“神奇”之后转身难

“这是一个神奇的网站。”58同城的成功离不开这句经典的广告文案。在2010年前后,在与赶集网竞争最为激烈的那段日子里,58同城作出了一个重要...

充电汽车也闹心:高速路突然没电、板车拉蔚来ES8

充电汽车也闹心:高速路突然没电、板车拉蔚来ES8

充不进电、充电慢、续航里程开不满,有时还得依赖厂商用板车拉充电车,追随用户的脚步“且充且行”……如果你的新能源汽车是这样,你愿意开着去长途旅...

格列卫:一个神药的传奇——愿病者有其药

格列卫:一个神药的传奇——愿病者有其药

来源:我是科学家iScientist这两天,徐峥与宁浩共同监制,徐峥亲自主演的一部喜剧电影《我不是药神》刚刚在全国院线正式上映。这部在点映阶...

三部委:在交通出行领域开展严重失信行为专项治理

三部委:在交通出行领域开展严重失信行为专项治理

各省、自治区、直辖市社会信用体系建设牵头部门、发展改革委、经信委(工信委)、交通运输厅(局、委)、公安厅(局):为全面贯彻党的十九大和十九届...

海尔热水器突然爆炸 3岁女童脸被烫伤构成6级伤残

海尔热水器突然爆炸 3岁女童脸被烫伤构成6级伤残

本文来自法制晚报法制晚报·看法新闻(记者周蔚)母亲在家给三岁女儿洗澡时,海尔热水器突然爆炸,母女俩全身被烫伤,女童面部瘢痕严重构成六级伤残,...

闲鱼的困惑:买家遭遇交易“陷阱” 维权成本高昂

闲鱼的困惑:买家遭遇交易“陷阱” 维权成本高昂

李甜李静不到10分钟,清华大学运维工程师高英凯向《中国经营报》记者展示的一台苹果笔记本电脑,在未充电的情况下,电量由开机时的26%自动上升至...

空姐乘滴滴遇害嫌犯已锁定 曾微信同事称司机想亲她

空姐乘滴滴遇害嫌犯已锁定 曾微信同事称司机想亲她

澎湃新闻记者彭瑜5月10日,澎湃新闻从知情人士处获悉,郑州警方已锁定“空姐乘坐滴滴顺风车遇害”案嫌疑人,正全力抓捕。据遇害空姐李某家属的朋友...

比特大陆“暴利经”:靠挖矿机年入百亿元

比特大陆“暴利经”:靠挖矿机年入百亿元

本报记者陈佳岚李哲北京报道炙手可热的比特币让相关设备制造商赚得“盆满钵满”。北京比特大陆科技有限公司(以下简称“比特大陆”)是一家初创公司,...

首支公益无人机救援队成立 京东:就近调配自营物资

首支公益无人机救援队成立 京东:就近调配自营物资

新浪科技讯5月11日上午消息,中国灾害防御协会与京东集团签署关于无人机参与救援工作的合作协议,这标志着着首个全国性公益无人机救援队正式成立。...

“国产三文鱼”这样检测寄生虫!用显微镜吗?

“国产三文鱼”这样检测寄生虫!用显微镜吗?

来源:饮食参考公众号龙羊峡的养殖淡水虹鳟鱼在市场上冒充大西洋鲑(真三文鱼)已有多年,一直都是闷声发大财的状态。最近不知道搭错了哪根筋,非要到...

国家网信办约谈“快视频”:暂停更新15天并下架

国家网信办约谈“快视频”:暂停更新15天并下架

原标题:国家网信办:要让网络短视频充满正能量近期,国家网信办会同有关部门,针对网络短视频行业存在的突出问题,开展了一系列专项治理行动,依法依...

“健康猫”涉嫌非法吸收公众存款被公安机关立案侦查

“健康猫”涉嫌非法吸收公众存款被公安机关立案侦查

新浪科技讯8月27日上午消息,广州市公安局新闻办公室今天通报:根据群众举报和公安机关调查,今日广州市公安局天河区分局依法对广州大象健康科技有...

淘宝天猫优惠券、奇趣发现、9块9、天天折扣尽在

爱比价妈妈-手机版-电脑版-文章首页