选自GoogleAIblog
作者:Ankur Bapna
机器之心编译
机器之心编辑部
由于缺少平行数据,小语种的翻译一直是一大难题。来自谷歌的研讨者提出了一种能够翻译 103 种言语的大规模多言语神经机器翻译模型,在数据丰厚和匮乏的语种翻译中都完成了明显的功能进步。他们在 250 亿个的语句对上进行练习,参数量超越 500 亿。
在曩昔的几年里,由于神经机器翻译(NMT)的开展,机器翻译(MT)体系的质量得到了明显进步,打破了世界各地的言语障碍。但 NMT 的成功很大程度上要归功于有监督的练习数据。那么,数据较少乃至没有数据的言语该怎么办呢?多言语 NMT 是一种有用的处理办法,它有一种概括成见,即「来自一种言语的学习信号应该有助于进步其他言语的翻译质量」。
多言语机器翻译运用一种言语模型处理多种言语。数据匮乏语种多言语练习的成功现已应用于主动言语辨认、文本转语音等体系。谷歌的研讨者之前探究过扩展单个神经网络能够学习的言语数量,一起操控每种言语的练习数据量。但假如将一切约束要素都移除会发作什么?咱们能否运用一切可用数据练习单个模型——即便这些数据的巨细、脚本、复杂度和范畴都各不相同。
在一篇名为「Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges」的论文和后续几篇论文中,谷歌的研讨者们在超越 250 亿的语句对上练习了一个 NMT 模型,这些语句是 100 多种言语与英语的互译,参数量超越 500 亿。他们得到了一种大规模多言语、大规模神经机器翻译办法 M4,在数据丰厚和匮乏的言语中都完成了明显的功能进步,能够轻松习惯单个范畴/言语,一起能够有用应用于跨言语下流搬迁使命。
大规模多言语机器翻译
虽然跨言语对数据歪斜是 NMT 使命中的一大应战,但这种歪斜也为研讨搬迁发明了一种抱负情形,在一种言语上练习得到的信息能够应用到其他言语的翻译中。法语、德语、西班牙语等数据丰厚的言语占有散布的一端,供给了数十亿的平行语料;约鲁巴语、信德语、夏威夷语等数据匮乏的言语占有散布的另一端,只要几万的语料。
一切言语对的数据散布(取对数)和在每个特定言语对上练习得到的双语基线的相对翻译质量(BLEU 分数)。
运用一切可用数据(来自 103 种言语的 250 亿个样本)练习之后,研讨者观察到,数据匮乏言语有着激烈的正向搬迁倾向,30 多种言语的翻译质量得到了明显进步,数据散布尾部的 BLEU 分数均匀进步了 5 分。作用是已知的,但却十分鼓舞人心,由于比较是在双语基线(即只在特定言语对上练习得到的模型)和单个多言语模型之间进行的,后者具有类似于单个双语模型的表征才能。这一发现标明,大规模多言语模型能够有用泛化,并且能够捕捉许多言语之间的表征相似性。
单个大规模多言语模型与双语基线模型之间的翻译质量比照。
在一篇名为「Investigating Multilingual NMT Representations at Scale」的 EMNLP 2019 论文中,谷歌的研讨者比较了多言语模型在多种言语中的表征才能。他们发现,多言语模型无需外部约束就能学习在言语学上相似的言语的同享表征,验证了长期以来运用这些相似性的直觉和试验成果。
在「evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation」一文中,研讨者进一步证明了这些学习到的表征在下流使命中跨言语搬迁的有用性。
一切 103 种言语编码表征聚类的可视化,根据表征相似性。不同的色彩代表不同的语系。
构建大规模神经网络
在添加数据匮乏的语种数量之后,数据丰厚的语种翻译质量开端下降。这种下降在多使命设置中能够被观察到,由使命间的竞赛和搬迁的单向性引起(即从数据丰厚的言语到数据匮乏的言语)。研讨人员探究了能够更好地学习和完成才能操控的算法,以此来处理这种负搬迁问题。在此过程中,他们还经过添加神经网络模型的参数量来进步其表征才能,以此来进步数据丰厚言语的翻译质量。
进步神经网络的才能还有其他几种办法,包含添加层数、添加躲藏表征的宽度等。为了练习更深的翻译模型,研讨者运用 GPipe 来练习 128 层、参数超越 60 亿的 Transformer。模型才能的进步使得一切言语的翻译质量都得到了明显进步,BLEU 分数均匀进步了 5 分。他们还研讨了深度网络的其他性质,包含深度-宽度权衡、可练习性难题以及将 transformer 扩展到 1500 多层、840 亿参数的规划挑选等。
虽然扩展深度是进步模型才能的一种办法,探究能够运用问题多使命特性的架构也是一种十分可行的弥补办法。研讨者经过用稀少门控专家混合层(sparsely-gated mixture of experts)代替原始的前馈层修正 transformer 的架构,明显进步了模型才能,使得咱们能够成功地练习和传递 500 亿参数,然后进一步进步了翻译质量。
与 103 个双语翻译基准比较,谷歌的新办法在单个多言语模型上进步了容量(参数量),从而进步了翻译质量。
让 M4 模型有用化
关于每个言语的范畴或搬迁使命来说,练习大型模型,花费许多算力十分不经济。谷歌提出的办法经过运用容量可调层使新模型习惯特定的言语或范畴,无需更改原始模型,使得这些模型变得愈加有用。
展望
有研讨显现,到 21 世纪末,全球至少有 7000 种现在正在运用的言语将会不复存在。多言语机器翻译体系能够解救这些言语吗?谷歌以为,M4 是通向别的 1000 种言语翻译的柱石。从这类多言语模型开端,即便没有平行语料,咱们也能够轻松地将机器翻译扩展到新的言语、范畴和下流使命中去。在通用机器翻译的方向上,许多有期望的处理方案似乎是跨范畴的,多言语 NMT 正在成为多使命学习、元学习、深层网络练习等机器学习技能的抱负测验渠道。
参阅链接:
https://ai.googleblog.com/2019/10/exploring-massively-multilingual.html
本文为机器之心编译,转载请联络本大众号取得授权。
------------------------------------------------