经过 自然出版集团
Meta 的人工智能模型背后的技术可以翻译 200 种不同的语言,发表在 自然 。该模型扩展了可以通过机器翻译翻译的语言数量。
神经机器翻译模型利用人工神经网络来翻译语言。这些模型通常需要大量可访问的在线数据来进行训练,而这些数据对于某些被称为“低资源语言”的语言来说可能不是公开的、廉价的或普遍可用的。根据模型翻译的语言数量来增加模型的语言输出可能会对模型翻译的质量产生负面影响。
Marta Costa-jussà 和 No Language Left Behind (NLLB) 团队开发了一种跨语言方法,使神经机器翻译模型能够学习如何利用其预先存在的翻译高资源语言的能力来翻译低资源语言。
因此,研究人员开发了一种名为 NLLB-200 的在线多语言翻译工具,包含 200 种语言,包含的低资源语言数量是高资源语言的三倍,性能比现有系统好 44%。
鉴于研究人员只能访问许多低资源语言的 1,000-2,000 个样本,为了增加 NLLB-200 的训练数据量,他们利用语言识别系统来识别这些给定方言的更多实例。该团队还从互联网档案中挖掘双语文本数据,这有助于提高 NLLB-200 提供的翻译质量。
作者指出,该工具可以帮助人们使用很少翻译的语言访问互联网和其他技术。此外,他们强调教育是一个特别重要的应用,因为该模型可以帮助那些使用资源匮乏语言的人访问更多书籍和研究文章。然而,科斯塔-尤萨和合著者承认,误译仍然可能发生。
更多信息: 将神经机器翻译扩展到 200 种语言, 自然 (2024)。 DOI:10.1038/s41586-024-07335-x
期刊信息: 自然
由...提供 自然出版集团