《中国大百科全书》(第三版·网络版)发布了黄国平博士撰写的“统计机器翻译”词条。现转录如下,以资交流。
通过对平行语料进行统计分析,构建翻译模型、语言模型等子模型,进而组合不同子模型完成翻译的机器翻译技术。简称SMT。
统计机器翻译是机器翻译的一种,也是非限定领域机器翻译中性能较佳的一种方法。相比于基于规则的机器翻译而言,统计机器翻译把翻译问题等同于求解概率问题,基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型来完成翻译。
统计机器翻译的主要任务是为译文的生成构造合理的统计模型,并在此统计模型基础上定义要估计的模型参数,并设计参数估计算法。主要思想是与语言无关的噪声信道模型(noisy channel model)和区分性训练方法(discriminative training)。模型建立后,对所有的语言都可以适用。典型的统计机器翻译方法有基于词(IBM Model)、短语、层次短语、句法的翻译方法,实用性比较好的是短语翻译方法和层次短语翻译方法,必要的训练步骤包括词对齐、翻译规则抽取、语言模型训练等。
短语翻译模型能大规模地在平行语料中学到类似于词典的短语翻译表,比如“在周日”可以翻译成“on Sunday”及其翻译概率。翻译概率是衡量源语言短语与目标语言短语对应的可能性。短语翻译表建立起两种语言之间的翻译桥梁。
2016年前的实用机器翻译产品大多采用的是统计机器翻译方法,且主要基于短语或者层次短语翻译方法,典型代表是开源机器翻译系统Moses。统计机器翻译能比较好地处理结构不太复杂、中等以下长度的句子。
黄国平,博士,腾讯翻译负责人,腾讯AI Lab专家研究员,毕业于中国科学院自动化研究所,研究方向为机器翻译、自然语言处理。深入研究交互翻译的研究与应用,在ACL、AAAI、IJCAI、EMNLP等人工智能领域顶级会议与TASLP等顶级期刊发表论文20余篇。
原文发表于《中国大百科全书》第三版网络版,欢迎各位学者阅读、分享。
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。
– END –
翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!
转载来源:《中国大百科全书》第三版网络版
转载编辑:李舒蓉
审核:吕欣潼、吴志雄
项目统筹:吕欣潼