版权归原作者所有,如有侵权,请联系我们

[科普中国]-Google神经机器翻译系统

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

Google神经机器翻译系统(英语:Google Neural Machine Translation,简写:GNMT),是Google开发的神经机器翻译(NMT)系统,于2016年11月推出,它使用人工神经网络来提高Google翻译的流畅度和准确性。Google神经机器翻译系统通过应用基于实例的(EBMT)机器翻译方法来改进翻译质量,系统会从数百万个示例中学习。翻译系统提出的系统学习架构首先通过Google翻译支持的一百多种语言进行了测试。随着大型端到端框架的发展,系统会随着时间的推移学习,做出更好,更自然的翻译。GNMT能够一次过翻译整句句子,而不是逐字翻译。

开发背景机器翻译的特征主要表现为自动化、机械性、以语句为翻译单位、二度摹仿和语境制约有限五大特征,且机器翻译与人工翻译之间的关系并非矛盾、零和的关系,而是相辅相成、相互促进的关系。进入90年代之后,机器翻译开始迅速发展,而谷歌翻译是机器翻译的代表。语言中出现一些变化、新词或者外来词时,谷歌翻译可以通过升级、完善其语料库,增加对应的新词、外来词文本,使译文适应语言的发展,十分便利。

历史谷歌大脑项目于2011年由Google研究员杰夫·迪恩,格雷戈·科拉多和史丹佛大学计算机科学教授吴恩达在Google X秘密实验室成立。吴恩达的工作令Google和史丹佛大学获取了突破。

2016年9月,Google研究团队宣布开发Google神经机器翻译系统,同年11月,Google翻译停止使用其自2007年10月以来一直使用的专有统计机器翻译(SMT)技术,开始使用神经机器翻译(NMT)。

Google翻译的NMT系统使用了一种能够深度学习的大型人造神经网络。GNMT使用通过使用数百万更广泛的来源来推断出最相关的翻译,提高翻译的质量。 然后将结果重新排列并组成基于人类语言的语法翻译。 GNMT提出的系统学习架构通过Google翻译支持的语言进行了测试。 GNMT没有创建自己的普遍语言,而是针对许多语言之间发现的共同点,因此心理学家和语言学家比计算机科学家对此更感兴趣。2016年,Google翻译的其中八种语言开始尝试使用此系统,包括英语,法语,德语,西班牙语,葡萄牙语,中文,日语,韩语和土耳其语。2017年3月,增加了俄语、印地语和越南语。同月,因谷歌翻译社群的帮助下,添加了对希伯来语和阿拉伯语的支持。2017年4月底,增加了9种印度语言的支持,包括印度语,孟加拉语,马拉地语,古吉拉特语,旁遮普语,泰米尔语,泰卢固语,马拉雅拉姆语和康纳达语。

零点翻译GNMT系统改进了以前的Google翻译系统,GNMT系统可以处理“零点翻译”,即直接将一种语言翻译成另一种语言(例如中文到日文)。以前Google翻译会先将源语言翻译成英文,然后将英文翻译成目标语言,而不是直接从一种语言翻译成另一种语言。

GNMT系统和英语专业学生翻译效果对比及分析让谷歌神经机器翻译系统系统和英语专业学生分别翻译两篇英文,之后对两者的翻译效果进行对比。英文段落翻译中包含全国翻译专业资格考试英语笔译三级样题一篇,529字,2016年12月全国大学英语四级考试阅读理解段落一篇,211字。2017年8月11日,在采用GNMT系统的https://translate.google.cn/网站上获得译文;参与翻译测试的学生为沈阳市4所高校4个班级英语专业大三的学生。

GNMT系统出现的问题(1)只翻译出字面含义,译文并未结合整个句子的含义。如,原文为:Freed by warming,waters once lockedbeneath ice are gnawing at coastal settlementsaround the Arctic Circle.GNMT系统的译文是:通过变暖释放,一旦被冰封锁住的水域就在北极圈周围的沿海定居点处啃咬。free确实有释放的含义,但硬生生地翻译为“通过变暖释放”会给读者一头雾水的感觉,应为“气候变暖,原来压在冰下的水自由流动”。同样,are gnawing at翻译为“啃咬”并不合适,翻译为“侵蚀”较为贴切。

( 2 ) 句子理解错误,导致翻译出错。如,原文为:Eventually,homes will be lost as more ice meltseach summer,and maybe all of Bykovsky,too.GNMT系统的译文是:最终,随着每年夏天更多的冰融化,也许全部Bykovsky也将失去家园。译文中,“homes willbe lost”(将失去家园)并未译出,homes will be lost和后面的 Bykovsky 联系在一起,译为“Bykovsky也将失去家园”,合理的译文应该为“最终家园将会消失,整个Bykovsky也将不复存在”。

(3) 译文出现漏译原文内容的情况。如,原文为:A changing Arctic is felt there,too,though inanother way.GNMT系统的译文是:不过,北极的变化也是如此。原文中“felt”,“in another way”并没有译出。这句应译为“北极的变化在这里也能感受到,不过方式不同”。

总结译文的定语过长,不符合汉语的表达习惯

对原文的理解有误

标点不够规范

对机器翻译取代人工翻译的担心是没有必要的,机器翻译的文本类别有限,当前来看结果也不甚理想,远没有达到令人满意的程度。但是,以GNMT系统为代表的神经机器翻译的发展,为今后人机结合的翻译提供了必要的保障。GNMT系统的翻译结果可以作为英语专业学生提升翻译水平的一面镜子,查找自身的不足。在教学中对于要逐步增加中国文化的渗透,从而使当今学生在从事英语翻译的过程中,自然担当起祖国优秀文化传播者的角色,让世界了解中国,让中国走向世界。GNMT系统和英语专业学生的翻译水平的共同提高,必然会为译文质量和效率的提升打下实基础。1

本词条内容贡献者为:

王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所