最新
首页> 网络焦点>正文

利用最新AI技术,谷歌提高机器翻译质量

2020/6/15 14:59:48 来源: 互联网

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:Google Translate是全球最流行的翻译服务之一,目前支持108种语言的互译,每天翻译的单词量达到1500亿。过去一年间,通过利用针对总体质量,延迟以及整体推理速度的一系列技术组合,其BLEU翻译质量平均又提高了5分多。Venturebeat的KYLE WIGGERS报道了相关的技术进展,原文标题是:How Google is using emerging AI techniques to improve language translation quality


划重点

Google Translate支持108种语言互译,每日翻译的单词量达到1500亿

经过运用一系列技术之后,2019年5月至2020年5月期间,Translate的翻译表现平均提高了5分或更多

Transformer编码器+RNN解码器+爬虫升级为翻译质量提升做出了贡献

课程学习对噪声数据进行了更好的处理

Google Translate Community将是Google Translate重要的助手

Google近日表示,自己在提高没有大量书面文字的语言的翻译质量方面已经取得了进展。在一篇即将发表的博客文章里面,该公司详细介绍了自己新的创新技术。这些创新技术增强了目前Google Translate所支持的108种语言(尤其是缺乏数据的语言,如约鲁巴语和马拉雅拉姆语)的用户体验。据称,Google的这项服务平均每天翻译的单词量达到1500亿。

自Google Translate首次公开亮相以来的这13年间,神经机器翻译,基于重写的范式以及设备处理等技术已经让该平台翻译的准确性出现了可量化的飞跃。但是直到最近,哪怕是Translate最新的算法也落后于人类的表现。Google之外的努力说明了该问题的量级——旨在让非洲大陆上数千种语言能够自动翻译的Masakhane 项目,目前仍未摆脱数据收集和转录的阶段。自2017年6月发布以来,Mozilla为构建转录语音的开源数据集所做的努力Common Voice,至今也仅审核了40种语音。

Google表示,其翻译突破并不是由单一技术推动的,相反,那是针对低资源语言,高资源语言,总体质量,延迟以及整体推理速度的一系列技术的组合。2019年5月至2020年5月期间,经过人工评估和BLEU(一种基于系统翻译与人工参考翻译之间相似性的指标)进行衡量之后,发现Translate的表现为在所有语言当中平均提高了5分或更多,在50种最低资源水平的语言的翻译平均提高了7分或更多。此外,Google表示,翻译在面对机器翻译幻觉时已经变得更加健壮。(注:机器翻译幻觉是一种特殊的现象,当AI模型被赋予怪异输入时会产生这种现象,比方说“Shenzhen Shenzhen Shaw International Airport (SSH)”的泰卢固语文字为“? ? ? ? ? ? ? ? ? ? ? ? ? ? ?”,意思是“Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh”)。

这些技术里面首当其冲的是一种翻译模型架构,这是一种混合型的架构,包含了一个Transformer编码器以及一个递归神经网络(RNN)解码器,用针对时序建模的TensorFlow框架Lingvo实现。

在机器翻译里面,编码器的工作通常是将单词和短语编码为内部表示,然后解码器将其用来生成所需语言的文本。2017年,Google相关研究人员首次提出,在这方面基于Transformer的模型要比RNN更为有效,但Google表示,其工作表明,所获得的大部分质量提升仅来自于Transformer的一个组件:编码器。原因可能是因为虽然RNN和Transformer都被设计为处理有序数据序列,但是Transformers并不需要按顺序来处理序列。换句话说,如果所讨论的数据是自然语言的话,则Transformer无需在处理结尾之前先得处理句子的开头。

尽管如此,在推理时,RNN解码器仍比Transformer当中的解码器“快得多”。在意识到这一点之后,Google Translate团队在开始优化RNN解码器,然后再与Transformer的编码器进行结合,从而创建出比四年前基于RNN的神经机器翻译模型延迟更低,质量更高,更稳定的混合模型,并替换了后者。


自2006年成立以来,Google翻译模型的BLEU得分情况

除了新颖的混合模型体系结构之外,Google还升级了自己已经使用了几十年,用来从数百万对文章、书本、文档以及web搜索结果的示例翻译中编译训练数据集的爬虫。这位新的数据爬虫(针对14种大型语言对采用嵌入式而不是字典式,意味着它利用的是实数向量来表示单词短语)更加注重精确度(相关数据在检索到的数据中所占的比例)而不是回忆(相关数据总量在实际检索到的数据中的占比)。Google表示,在生产环境下,这让爬虫析取的句子数平均增加了29%。

另一项翻译性能提升来自于一种建模方法,这种方法对训练数据中的噪声进行了更好的处理。因为观察到噪声数据(含有大量无法正确理解或解释的信息的数据)会损害数据丰富的语言的翻译,因此Google的翻译团队部署了一个系统,利用经过噪声数据训练的模型来对例子进行打分,然后对“清洗”后的数据进行调整。基本上,这些模型一开始利用所有的数据进行训练,然后逐步用规模小一点干净一点的子集进行训练,这种方法在AI研究社区里面被称为课程学习(curriculum learning)。

针对资源匮乏的语言,Google在Translate里面实现了反向翻译方案,给翻译添加了并行训练数据,让被翻译语言的每个句子都跟翻译进行配对。(机器翻译传统上依赖于源语言目标语言配对句子语料集源的统计数据。)在这种方案中,训练数据会自动跟合成的并行数据进行匹配,从而保证目标文本是自然语言,但源语言则通过神经翻译模型生成。其结果是Translate利用了更丰富的单一语言文本数据来训练模型,Google表示这对于提高流利性特别有用。


带Translate功能的Google Maps

Translate现在还利用了M4建模,用一个大型模型M4实现多种语言与英语之间的互译。(去年的一篇论文里面首次提出了M4,证明在利用100多种语言的250亿对句子对进行训练之后,M4可提高30多种低资源语言的翻译质量。)M4建模令Translate里面的迁移学习成为可能,通过对包括法语,德语和西班牙语(有数十亿个并行示例)等高资源语言的训练收集而来的洞察,可以应用到诸如约鲁巴语,信德语和夏威夷语(仅有数万个示例)等低资源语言的翻译当中。

根据Google的说法,自2010年以来,Google Translate每年至少都提高了1个BLEU点,但是自动机器翻译绝对还算不上已解决的问题。Google承认,即使是其增强的模型也容易出错,包括会将一种语言的不同方言混淆,产生过多的直译,在特定题材和非正式或口头语言的翻译上表现不佳等。

该科技巨头正常是多管齐下解决这一问题,包括通过它的Google Translate Community,这个游戏化的计划招募了一批志愿者,让他们翻译单词短语或者检查翻译是否正确来帮助改进低资源语言翻译的性能。今年1月,该计划在各种新兴机器学习技术的合作下,又为Translate增加了5种为7500万人使用的语言的翻译:其中包括卢旺达语(Kinyarwanda),奥里亚语(Odia),鞑靼语(Tatar),土库曼语(Turkmen)以及维吾尔语。

追求真正通用翻译这一目标的并不只有Google。2018年8月,Facebook就披露了一种结合了逐词翻译,语言模型和反向翻译的AI模型,这种模型在表现要优于语言配对系统。最近,麻省理工学院计算机科学与人工智能实验室的研究人员提出了一种无监督模型(即可以从未经明确标记或分类的测试数据当中学习的模型),这种模型可以在没有直接翻译数据的情况下对两种语言的文本进行互译。

在一份声明中,Google婉转地对 “学术界和业界”的机器翻译研究表示了“感谢”,称其中一些对自己的工作起到了促进作用。该公司表示:“我们通过综合和扩展了各种最新进展来实现[Google Translate 最近的改进]。通过此次更新,我们为能提供相对一致的自动翻译而感到自豪,这种一致性甚至体现在我们所支持的108种语言当中资源最少的的语言翻译上。”

译者:boxi。



该文章来源互联网,如有侵权请联系删除
  • 上一篇: 阴阳脸猫!这半灰半白的小肉脸超软萌,喵果然无论怎样都可爱
  • 下一篇: 男子提醒美女狗子危险 反被怼“它又不咬人”下一秒就后悔了

相关文章

  • 国家卫健委等10部门:推进儿童医疗卫生服务高质量发展
  • 冬天里的一把火,照出别样的东北
  • 文旅新探|哈尔滨:2024的北国情书
  • 一图速览|2024年纪检监察工作八大任务
  • 微视频 | 制胜之道
  • 星火成炬 | 以冰雪之名
  • 年轻人三大“脆皮”症状:记忆力下降、情绪差、免疫力下降
  • 春运期间,这些人可提前购票!购票指南→
  • 万千气象丨他竟然把八九千年前老祖宗用的乐器复原出来了
  • 铁路新年调图,“图”的是啥?
  • 厦门楼面漏水维修急速处理
  • 石家庄飘窗渗水维修常见原因及解决方法
  • 重庆卫生间防水补漏维修解决方案
  • 佛山外墙防水补漏上门维修
  • 厦门防水补漏维修上门维修
  • 南昌卫生间防水补漏做好不返工

相关图集

  • 今年上半年我国机械工业运行态势良好 机械工业生产提速
  • 我国科学家发现新型高温超导体
  • 打卡“中国行”、乐享“中国游” 中国迎来入境游高峰
  • 百日千万招聘行动推出专场 招聘需求超50.5万人次
  • 我国成功发射高分十一号05星
  • 专用通道、网上申报、零延时……多项便捷通关政策助力口岸经济
  • 睡一觉就到旅游目的地 暑期多地开行“夜间”动卧列车
  • 财经观察:夏粮丰收,端稳端牢“中国饭碗”

热门推荐

  • 美女明星
  • 网络焦点
  • 热点新闻
  • 社会图库
  • 社区团购:旧故事和新战事社区团购:旧故事和新战事
  • 市场要闻 | 比特币矿场再现繁荣,数字货币概念股水涨船高市场要闻 | 比特币矿场再现繁荣,数字货币概念股水涨船高
Beyond Meat开卖植物猪肉,5家上海餐厅限时发售
龙飞船里体验怎么样:宇航员盛赞它是坐过最棒的飞船
直播带货,不讲武德?
小鹏P7鹏翼版开启预售,2021年量产激光雷达智能汽车
打赢哈根达斯的钟薛高什么来头?
爱情片的短视频营销红利还有多久 ?
今天,又一位医药老兵敲钟:归国创业3年,市值130亿
深剖电影【想看】
缺货:手机厂商普遍“吃不饱”,延缓千元5G手机普及进程
持仓30亿美金,涵盖四家公司,高瓴仍在加仓这个行业
最前线丨传卫龙计划于明年赴港上市,募资10亿美元
最前线|跟谁学称第三方调查未发现任何重大问题,Q3营销费用增至21亿元
  • 国家卫健委等10部门:推进儿童医疗卫生服务高质量发展国家卫健委等10部门:推进儿童医疗卫生服务高质量发展
  • 冬天里的一把火,照出别样的东北冬天里的一把火,照出别样的东北
文旅新探|哈尔滨:2024的北国情书
一图速览|2024年纪检监察工作八大任务
微视频 | 制胜之道
星火成炬 | 以冰雪之名
年轻人三大“脆皮”症状:记忆力下降、情绪差、免疫力下降
春运期间,这些人可提前购票!购票指南→
万千气象丨他竟然把八九千年前老祖宗用的乐器复原出来了
铁路新年调图,“图”的是啥?
焦点访谈丨以上率下立标杆
坚定不移走改革强警之路——写在第四个中国人民警察节到来之际
拓展交通新业态 “空中的士”成为出行新选择
“新雄安人”故事|我找到来这里的答案
  • 今年上半年我国机械工业运行态势良好 机械工业生产提速今年上半年我国机械工业运行态势良好 机械工业生产提速
  • 我国科学家发现新型高温超导体我国科学家发现新型高温超导体
打卡“中国行”、乐享“中国游” 中国迎来入境游高峰
百日千万招聘行动推出专场 招聘需求超50.5万人次
我国成功发射高分十一号05星
专用通道、网上申报、零延时……多项便捷通关政策助力口岸经济
睡一觉就到旅游目的地 暑期多地开行“夜间”动卧列车
财经观察:夏粮丰收,端稳端牢“中国饭碗”
最高人民检察院依法对彭国甫决定逮捕
上半年经港珠澳大桥进出口总值突破1000亿元
最高法详解公司法时间效力规定:法不溯及既往,明确新旧法律衔接
我国科学家成功研发廉价绿色丙烯生产催化剂
商务部:上半年我国网上零售额7.1万亿元 增长9.8%
全球首款、中国首制!江海直达型LNG加注运输船交付
  • 跨界了!菜市场免费代炒菜 一批餐饮店慌了 菜场内卷突围跨界了!菜市场免费代炒菜 一批餐饮店慌了 菜场内卷突围
  • 励志!35岁小伙扛楼一年多存了40万 踏踏实实通过劳动挣钱励志!35岁小伙扛楼一年多存了40万 踏踏实实通过劳动挣钱
精彩上演!“传统文化热”带动暑期“文博热” 博物馆超长待机
张冠李戴!广州动物园辟谣网传招野人 辽宁关山湖风景区回应
至少两座!山东聊城三中操场发现古墓 建造年代仍是个谜
赢麻了!男子33万买到旧宝马获退1赔3 经销商涉嫌欺诈对簿公堂
让人佩服!35岁小伙扛楼一年多存了40万 勤劳吃苦不挑活
惊天大瓜!医院院长与他人妻子通奸?官方回应通报调查
黑科技加持!杭州5.2万辆共享单车不烫屁股 加装7000个座垫
工作内容原地摆烂?广州动物园辟谣网传招野人
万万没想到 男子33万买到旧宝马获退1赔3
一天一千多 35岁小伙扛楼一年多存了40万
迎风飞舞 可可爱爱 小男孩发型神似宫崎骏动画角色
可爱的笑容 小男孩发型神似宫崎骏动画角色

热门图片

  • 继续发布洪水红色预警 鄱阳湖水位今年首次超警
  • 吉祥航空一航班延误未开空调致乘客中暑?航司道歉并解释
  • 网约车“空调费”之争
  • 旅客乘飞机被遗漏在备降机场 东方航空:天气原因备降,可协商赔偿
  • “China Travel”潮持续火热 上半年入境外国人1463.5万人次
  • 受美欧高利率拖累 日本百年银行陷入巨亏危机
  • 降雨引发泥石流 造成国道G318线四川雅江段断道
  • “考古女孩”北大本科毕业,或入职敦煌研究院 “冷门”考古专业如今为啥火了

更多阅读

  • 当街舞遇到传统文化|抖音年轻人在用一种很新的方式过年......
  • 活气丽品牌创始人郑善方登上《tops时尚人物》封底 与章子怡共同出席品牌晚宴
  • 精彩陕西年2024陕西省少儿春晚主持人阵容公布!
  • 30年了!遥望科技X胥渡吧出品的这场经典IP演唱会口碑爆棚!
  • 都市情感剧《因爱起航》开机仪式举行 司徒主持
  • 腾讯音乐携手凯悦天地联合Billboard金耳朵音乐私享会官宣
  • H131与你有个约定——年度盛典节目单来喽,速来围观!
  • 守护花蕾 呵护女童——“守护花蕾计划”落地横石水中心小学
  • 《神隐》收官 深耕东方美学质感获热度口碑双飘红
  • 直播现场,小杨哥忽然提出要和旺旺三公子蔡旺庭加v
  • 《了不起的中国颜色》:惊艳千年的瑰宝,深藏在色彩中的东方意蕴
  • 宝总惊喜现身!《繁花》上海影城大银幕华丽收官
  • 自然堂携手《白蛇传30年演唱会》、《繁花》两大热门IP再续传奇美力
  • 刘洋洋新歌《白云深处有人家》全网上线|唱出心中的世外桃源
  • 热点新闻
  • 大话社区
  • 图片报道
  1. 1 今年上半年我国机械工业运行态势良好 机械工业生产提速
  2. 2 我国科学家发现新型高温超导体
  3. 3 打卡“中国行”、乐享“中国游” 中国迎来入境游高峰
  4. 4 百日千万招聘行动推出专场 招聘需求超50.5万人次
  5. 5 我国成功发射高分十一号05星
  6. 6 专用通道、网上申报、零延时……多项便捷通关政策助力口岸经济
  7. 7 睡一觉就到旅游目的地 暑期多地开行“夜间”动卧列车
  8. 8 财经观察:夏粮丰收,端稳端牢“中国饭碗”
  9. 9 最高人民检察院依法对彭国甫决定逮捕
  10. 10 上半年经港珠澳大桥进出口总值突破1000亿元
  11. 11 最高法详解公司法时间效力规定:法不溯及既往,明确新旧法律衔接
  12. 12 我国科学家成功研发廉价绿色丙烯生产催化剂
  13. 13 商务部:上半年我国网上零售额7.1万亿元 增长9.8%
  14. 14 全球首款、中国首制!江海直达型LNG加注运输船交付
  1. 1 宇宙两大极端现象或有关联
  2. 2 新型隔膜提升锂离子电池安全性
  3. 3 从陆上到海底 捕捉“幽灵信使”
  4. 4 农历十二月为何叫腊月
  5. 5 商场店铺中的灯光暗藏玄机
  6. 6 新疆首个“氢能储运工程研究中心”落地
  7. 7 2022年全国科普经费达191亿
  8. 8 首个草鱼肠道微生物基因目录构建
  9. 9 荣耀MagicOS 8.0首次实现意图识别人机交互
  10. 10 让报废锂电池成为优质“城市矿山”
  11. 11 新型碱基编辑器为基因编辑提供新工具
  12. 12 人工智能有望成为解决复杂电力系统问题的重要工具
  13. 13 亚洲首套船用风力旋筒助推系统投用
  14. 14 居家检测疾病成健康消费新风尚
  1. 1 今上午10点,济南餐饮消费券,开抢了,能减这么多
  2. 2 零点立交转向匝道拆除接近尾声
  3. 3 三角楼打翻 星空调色盘
  4. 4 科技助农 土地托管 一路麦香,这就是丰收的味道!
  5. 5 全国大部气温先升后降 中东部大范围雨雪上线
  6. 6 “假一赔三给4双” 一些电商知假售假为何理直气壮
  7. 7 热门款不发货、退款无渠道……盲盒消费套路深?
  8. 8 2021年我国手机上网人数为10.29亿人
  9. 9 欺骗性收费、花式营销,云算命呼唤云监管
  10. 10 广西一女子被多名女子群殴拖行 被三女子按倒暴打拖行
  11. 11 待宰水牛发狂冲进餐馆顶飞男子 该男子被突如其来水牛顶伤
  12. 12 不可思议!天津高速鸵鸟奔跑车辆纷纷避让 车流中飞奔
  13. 13 货车车头冲出悬崖公路悬空 导航走近路,庞大车体进退两难
  14. 14 真的吗?警方通报男子开车撞妻子岳母 一个恍惚错将油门当刹车?

热门话题

  1. 1 全球首个!海底智算中心平台在海南发布
  2. 2 上期所:黄金、白银期货合约涨跌停板幅度调整为8%
  3. 3 工业和信息化部:我国人工智能企业数量超过4500家
  4. 4 国家将加大投资 支持“一老一小”设施服务体系建设
  5. 5 民政部:严厉打击虚开、伪造、买卖火化证明等行为
  6. 6 广州天河宝马撞人案罪犯温庆运被执行死刑
  7. 7 五一火车票开售!“部分车次开售即秒光”回应来了
  8. 8 创多个“世界之最” 我国铁路和公路隧道超5万公里
  9. 9 广西壮族自治区党委原常委秦如培接受审查调查
  10. 10 我国明确超长期特别国债重点支持领域
本站内容来自互联网,不提供任何保证,亦不承担任何法律责任.如有侵权请联系删除,QQ:759281825.
COPYRIGHT © 2014-2024 xiaoqiweb.com INC. ALL RIGHTS RESERVED. 版权所有 笑奇网 粤ICP备17087216号

PHP网站源码爱联营销型网站建设大鹏外贸网站设计大运关键词按天收费龙岗SEO按天扣费坪山SEO按天扣费东莞网站优化推广坪地模板制作龙岗百度seo西乡网站优化按天收费同乐seo网站推广深圳seo网站推广大芬网站开发木棉湾百度竞价福永百姓网标王观澜网站设计模板坂田网页设计塘坑企业网站制作双龙关键词按天计费大运SEO按天收费吉祥网站关键词优化丹竹头seo网站推广宝安关键词按天计费荷坳百度网站优化深圳网站推广工具大运网站定制南山seo网站推广坑梓网络推广平湖网络推广吉祥网站建设南澳企业网站制作歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化