小编速览
冯志伟教授回顾中国计算语言学的发展历程,从1950年代的萌芽到今日的实用化。他深入分析神经网络机器翻译的局限性,强调其在理解语言深层含义上的不足。冯教授认为,机器翻译无法完全取代人类译员,尤其是在高端翻译领域。同时,他展望大语言模型对翻译行业的影响,指出其带来的机遇与挑战,并强调大语言模型对齐的重要性。冯教授的见解为翻译与国际传播工作提供了宝贵的指导。
专家简介 冯志伟 教育部语言文字应用研究所研究员、博士生导师、学术委员会委员,计算语言学家,专门从事语言学和计算机科学的跨学科研究。目前为北京大学、浙江大学、大连海事大学兼职教授,新疆大学天山学者。他研制了世界上第一个从汉语到多种外语的机器翻译系统、世界上第一个中文术语数据库,曾获得奥地利维斯特奖、中国计算机学会NLPCC杰出贡献奖,用中外文发表论文500多篇,出版《现代术语学引论》《自然语言计算机形式分析的理论与方法》《自然语言处理综论》《自然语言处理形式分析手册》等著作及译著40多部。 问 请问我国计算语言学经历了怎样的发展历程? 冯志伟:我认为我国的计算语言学研究历程主要分为以下三个时期。 首先是萌芽期。1954年,美国研制出第一个俄英机器翻译系统。中国的研究人员开始认识到,语言学科的数学模型具有研究价值。于是在1956年,国家科学规划提出要开展机器翻译和自然语言的形式化研究。1959年,我国研制出第一个机器翻译模型,可以将俄文翻译成中文,实现了从无到有的突破。 其次是恢复期。从1976年到80年代末期,中国积极与国际开展交流学习,计算语言学逐渐由技术问题发展为一门学科。1982年左右,中国学者逐渐出现在计算语言学顶级学术会议上。 之后是发展期。1989年以后,机器翻译开始走向工业应用,出现了提供翻译产品的公司。这段时期重视资源建设,例如进行数据收集,建立双语语料库等。2016年以后,神经网络机器翻译的正确率可达到95%以上,机器翻译逐渐实用化,国内企业纷纷推出机器翻译系统。
问 您如何看待神经网络机器翻译? 冯志伟:神经网络机器翻译中使用的深度学习技术在本质上是一种模式识别技术。计算机在翻译时,只是使用编码器-解码器模型进行文本数据的转换,并不能真正理解文本内容。但这并不完全等同于“鹦鹉学舌”,因为依托大规模语料和强大计算能力,深度学习可以把语言内部的语义转换为上下文的关联性并采用词向量(word vector)的方式来描述这样的关联性。计算机通过深度学习可以理解到语言文本内的一些局部性内容并深入挖掘语言数据各种参数之间的复杂关系,从而具有描述语言内部关系的强大能力。 神经网络机器翻译虽然效果不错,但由于深度学习和神经网络技术都是建立在模式识别基础之上的,是一种基于大数据的连接主义方法,在辨别多义词、确定指代关系等方面常常显得无能为力,其可解释性也不强。我们对神经网络机器翻译的运行机制并不十分清楚,在翻译实践中的应用还要更加谨慎。
问 您认为目前神经网络机器翻译面临哪些挑战? 冯志伟:作为自然语言处理的一个重要分支,神经网络机器翻译在一些领域和语种中的正确率已经能达到98%以上。但我认为神经网络机器翻译还不具有真正的人类智能,存在无法理解感情、缺乏常识等问题,这是神经网络机器翻译发展面临的挑战。 人类对于自然语言的理解除了依靠语言内部的各种关系之外,还要依靠外部物理世界、外部精神世界和社会历史世界等背景知识。自然语言文本中的每一个符号、每一个合乎规则结构的符号串,在人脑中都与外部客观世界有着复杂的联系。这些复杂联系不仅以概念的符号形式表现出来,还具有视觉、听觉、触觉、机体觉等表征,甚至有更深入的心理感情表征以及社会文化背景。当前深度学习通过多模态建模已经具备一定的视觉和听觉能力,但是还不具备处理触觉和机体觉的能力,更不能处理丰富多彩的语言外常识。因此,深度学习还不能挖掘语言数据与外部世界的多种多样的复杂联系,这是当前人工智能(artificial intelligence)与人类智能(human intelligence)最根本的差别。 翻译是人类的高级智能活动,翻译活动不仅涉及到语言内部的结构,还涉及到语言外部的日常生活知识、社会知识、历史知识、文化背景知识等诸多复杂丰富的要素,这些非语言要素构成了翻译的“人文硬核”(humanity core)。目前,神经网络机器翻译尽管已取得长足进步,并具有一定模拟人类语言内部结构的能力,但是模拟外在世界以及社会历史背景的能力还十分有限,也难以处理这些复杂而丰富的“人文硬核”,因此,当神经网络机器翻译遇到“人文硬核”时,就往往会捉襟见肘、左右为难。
问 您如何看待机器翻译与人类译员的关系? 冯志伟:近年来,翻译技术发展迅猛,有人认为翻译人员就要失业了。可我认为,机器翻译的翻译能力被人们夸大了,机器翻译无法取代人类译员,复杂的高端翻译工作必须由人来承担。一方面,文学作品、科技文献等垂直领域的翻译仍需人类完成;另一方面,有较高保密要求的翻译任务以及重要场合的同声传译和交替传译等也需要人类完成。具体来说,文学翻译需要译者具备极高的人文科学素养和对源语文化背景的深刻理解能力,同时也要能熟练并创造性地运用目标语,这是机器翻译难以胜任的,需由人类译员来承担。科技翻译中的多义术语可以表示不同领域的多种概念,机器翻译难以正确辨别这样的多义术语,往往会造成翻译错误,需要由人类译员进行判断。此外,尽管机器翻译也可以做同声传译和交替传译,但是,实时翻译场景中,机器传译往往难以及时纠错纠偏,可能会造成无法挽回的后果,因此重要的同声传译和交替传译也要由人类译员来承担。由此可见,机器翻译并不能代替人类译员,高端翻译专家是机器翻译永远也取代不了的。 我认为,机器翻译将成为人类译员的好朋友和得力助手。两者应当和谐共生、相得益彰。在人工智能时代,各种翻译技术工具的智能化程度越来越高,这都将有助于提升人类译员翻译效率。翻译工作者应当与时俱进,拥抱技术、学习技术、掌握技术。
问 您认为大语言模型对翻译行业产生了怎样的影响? 冯志伟:我认为大语言模型(Large Language Models, LLMs)为翻译行业提供了新的机遇,也带来了新的挑战。大语言模型使用机器学习和自然语言处理技术实现自动翻译,这让翻译变得更加快速、便捷、准确,节省了时间和经济成本;大语言模型可以根据用户的需求和偏好进行定制化翻译,提高翻译质量和用户体验,提供个性化服务;大语言模型可以帮助企业与客户进行更加智能化的交流互动,提升客户满意度和忠诚度;大语言模型让不同语言、文化间的沟通交流变得更加容易,促进了全球化发展和跨文化交流;大语言模型可以收集大量语言数据并对数据进行分析和挖掘,从而产生有价值的商业洞察和见解。总之,大语言模型通过技术创新,将推动翻译行业的智能化革新和高效创新发展。 当然,大语言模型也给翻译行业带来了新的挑战。大语言模型有翻译能力,能够在短时间内创造出大量翻译结果,相比于人类译员是一种低成本、高效率的选择;同时,其翻译结果还可以自动结合大模型中的数据信息,上下文理解能力相较于神经网络机器翻译有显著提升。因此,结合了上下文理解、译文润色等功能的大语言模型对翻译行业带来了巨大影响和冲击,这将导致部分传统翻译公司的市场份额逐步下降。随着大语言模型技术的不断发展,越来越多的企业将会开始使用大语言模型来提升其翻译产品的质量和效率,因此,那些不能提供更优质服务的企业将会面临退出市场的风险。 要应对这些挑战,翻译行业可以通过加强自身核心竞争力、拓展新领域等方式来保持市场竞争力。同时,也可以考虑与大语言模型技术结合,提高自身服务质量和效率。
问 您如何展望2024年大语言模型的发展和应用?它会对翻译与国际传播工作带来怎样的影响? 冯志伟:大语言模型深刻改变了过去的翻译知识生产方式,呈现出翻译的研究主体从单一的个体钻研到团体的群智协同,翻译的研究过程从经验积累到数据分析,翻译的研究形式从单一学科到多学科,从文本或语音数据到多模态数据,这是翻译知识生产范式在方法论上的剧烈变革和重大创新,这样的变革和创新将会推动翻译与国际传播工作的发展。 大语言模型是一种变革性的人工智能技术,它将重塑社会和科学技术发展,但同时它也存在多种明显的风险及可以预见的风险。 首先,大语言模型由于其固有的“幻觉”(hallucination)问题,可能会生成不真实、前后不一致的内容,或者生成不符合人类期望的文本,其中可能包含歧视、偏见和泄露他人隐私、敏感信息的内容。大语言模型还可能传播其训练数据中的有害信息和有毒内容,产生误导性和虚假性信息。 其次,大语言模型可能会被别有用心的人用来执行恶意行为。大语言模型还可能生成以假乱真的假新闻,也可能帮助黑客们对网络上的设备开展攻击。这些恶意行为会对我们的日常生活产生负面影响,甚至会对整个社会造成严重的伤害。随着其能力的不断增强,大语言模型还可能展现出“追求”自我保护、自我增强、获取资源等目标,几乎所有数字智能代理(digital agent)都有可能将这些作为其追求的目标。 这些都是大语言模型可能产生的弊端和风险。基于大语言模型研制出来的多语言的数字智能代理将越来越多地融入到我们的日常生活中。为了克服大语言模型的这些弊端和避免各种难以预测的风险,需要推动大语言模型对齐(LLMs alignment)技术的研究,使大语言模型的输出和行为与人类的期望和价值保持一致。任何未对齐的行为都可能导致意想不到的严重后果。 在2024年,大语言模型对齐应当成为语言治理(language governance)的一个重要内容。在语言治理中,我们应当建立一个大语言模型对齐方法的测试平台,以之作为检验对齐方法实验和提案的平台,这将有助于制定更加稳定的大语言模型对齐方法,在关键问题上达成共识,并为大语言模型对齐制定一致的科学框架。这些都是大语言模型时代的语言治理应当关注的问题。 2023年以来,国内外提出了一系列大语言模型治理的办法和倡议。 2023年8月15日,我国正式施行《生成式人工智能服务管理办法》,这个《办法》规定了对服务提供者的制度要求,为未来生成式人工智能行业的发展指明了方向。 10月18日,中央网信办发布《全球人工智能治理倡议》。倡议提出,发展人工智能应坚持相互尊重、平等互利的原则,各国无论大小、强弱,无论社会制度如何,都有平等发展和利用人工智能的权利。与此同时,中国国家新一代人工智能治理专业委员会制定了《新一代人工智能伦理规范》,我国外交部制定了《中国关于加强人工智能伦理治理的立场文件》。 11月1日,首届全球人工智能安全峰会在英国召开,会议发布的《布莱奇利宣言》指出,人工智能的许多风险基本上是国际性的,因此最好通过国际合作来解决。 12月8日,欧洲议会、欧盟成员国和欧盟委员会三方就《人工智能法案》达成协议,该法案将成为全世界首部人工智能领域的全面监管法案。 12月28日,OpenEval平台、中国软件评测中心等机构联合发布《2023人工智能大模型基准测试白皮书》,指明了大语言模型潜在的安全风险点,说明了大语言模型在追求知识和能力提升的同时,还应当关注大语言模型的价值对齐。随着大语言模型能力的不断进化,价值对齐问题的重要性将日益突出。 大语言模型的治理已成为全球的共识,这是值得高兴的事情。 翻译与国际传播工作应当关注大语言模型的治理,从而保证翻译与国际传播工作的健康发展。