融合统计机器翻译特征的蒙汉神经网络机器翻译技术

融合统计机器翻译特征的蒙汉神经网络机器翻译技术

杜健  内蒙古大学
【摘要】: 随着机器翻译的发展,统计机器翻译已经进入瓶颈期很难有所提高,因此研究人员逐步将研究目光投向神经网络机器翻译方向。神经网络机器翻译也在大规模语料上取得了很好的翻译效果,而对小规模语料的神经网络机器翻译研究甚少。但是作为新的机器翻译方法它也存在一些限制:(1)神经网络机器翻译为了降低训练的复杂度通常会将词典的大小限制到一个特定的范围内,从而导致严重的未登录词问题,这个问题严重影响了翻译效果;(2)神经网络机器翻译的解码缺乏保证源语言词都被翻译的机制从而倾向于短的翻译结果;(3)神经网络机器翻译不能很好的利用语言模型。基于以上原因,本文在小规模的蒙汉平行语料上实现了神经网络机器翻译,并提出通过统计机器翻译中的特征来缓解神经网络机器翻译中的问题。首先本文搭建了基于注意力的蒙汉神经网络机器翻译系统;其次,本文提取了统计机器翻译特征:翻译模型,词反馈信息以及语言模型,并定义了其特征函数;第三,本文通过蒙汉平行语料利用GIZA++建立了蒙汉对齐词典,利用IRSTLM对汉文建立了语言模型;第四,本文将已经建立的蒙汉对齐词典、语言模型以及词反馈信息通过对数线性模型融入到基于注意力的神经网络机器翻译的解码中从而处理神经网络机器翻译中的限制;最后,本文针对神经网络机器翻译中的未登录词问题提出了在翻译过程中处理和翻译后处理的两种处理方法,大幅度减少了神经网络机器翻译中的未登录词。实验结果表明,通过融合统计机器翻译特征的蒙汉神经网络机器翻译明显地提升了翻译质量,BLEU值提高至30.66,句子长度由16.7个词提升至19.1个词,并处理掉了神经网络机器翻译中86%的未登录词。

你可能感兴趣的