大语言模型 | 大模型文言文理解和翻译能力初探索

大语言模型 | 大模型文言文理解和翻译能力初探索

张博乐 翻译技术教育与研究

 

2024年12月11日 08:00 

   

一、引言

12月4日,春节成功申遗。新华时评里写道,“春节,岁月悠长,积淀丰厚。‘一元复始,万象更新’,是哲学;‘昨夜斗回北,今朝岁东起’,是天文;‘弟兄团拜处,归去愿成行’,是礼仪;‘桃符呵笔写,椒酒过花斟’,是民俗… …”。中华文化典籍蕴藏着无穷的知识与财富,也应该被更多人看到。若是大语言模型能对文言文进行准确的理解和翻译,那它们绝对称得上是“让世界听见中国的声音”这一过程中的“扩音器”了。

文言文是中国古代的一种汉语书面语言组成的文章,我们自小学便开始接触和背诵许多经典的文言文。而文言文翻译也几乎是考试的必考内容。众多虚词、古今异义词的存在,也让文言文翻译颇具挑战性,也难免闹出笑话。

问:“守着窗儿,独自怎生得黑”如何翻译?

答:“守着窗子,看着窗外的行人,怎么就我生得这般黑?”

比如,“守着窗儿,独自怎生得黑”,正确的翻译应是“孤独地守在窗前,独自一人怎么熬到天黑?”,而有的同学却把它翻译成“守着窗子,看着窗外的行人,怎么就我生得这般黑?”,这与原文的意境差了可不止十万八千里,让人哭笑不得。

那当大语言模型遇上文言文,到底会碰撞出什么样的火花呢?让我们拭目以待。

 

二、测评设计

首先,介绍一下本次入围的四位“选手”及规则。

1号选手:来自北京月之暗面科技有限公司的Kimi智能助手

2号选手:来自百度公司的文心一言

3号选手:来自字节跳动公司的豆包

4号选手:来自OpenAI的ChatGPT

规则:有研究表明,先将文言文译为现代汉语,在此基础上进行英译,翻译质量会有所提升。我们除了要评估四位“选手”的译文质量,同时要对“译为现代汉语”前后的英译版本进行对比研究。

既有土生土长的本地选手,又有海外选手,接下来,让我们看看“战况”如何。

 

三、测评过程

Round 1

题目:子在川上曰:“逝者如斯夫,不舍昼夜。”。

题解:“子”指的是“孔子”,“逝者”指的是“时间的流逝”,这两处是翻译的难点。

译为现代汉语前

现代汉语

译为现代汉语后

Kimi

Confucius stood by the river and said, “The passing of time is just like this, without stopping day or night.”

孔子站在河边说:“时间就像这流水一样,不分昼夜地流逝。”这句话表达了时间的流逝是连续不断的,无论白天还是夜晚。 Confucius stood by the river and said, “The passing of time is just like this, without stopping day or night.”

文心一言

Confucius, standing by a river, said, “The passage of time is like this—it goes on ceaselessly, day and night.”

孔子在河边说道:“消逝的时光就像这河水一样啊!不分昼夜地向前流去。”

Confucius, standing by the river, said, “The passing of time is like this river—it flows ceaselessly day and night.”

豆包

The Master stood by a river and said, “It passes on just like this, never ceasing day or night.”

孔子在河边说:“消逝的时光就像这河水一样呀,日夜不停地流去。”

Confucius said by the riverside, “The passage of time is like the flow of this river, never ceasing day or night.”

ChatGPT

The Master said by the river, “Time flows on like this, never ceasing, day or night.”

“他在河边说:’流逝的时间就像这河水一样,日夜不停地流去。'”

PS:并给出了具体的词语和背景解释。

“He said by the river, ‘Time flows like this, never ceasing, day or night.'”

点评:

Kimi:“子”与“逝者”,译文中都有明确的指出;译为现代汉语前后译文相同,质量都很好。而且在Kimi所联想到的问题中,提到了《论语》、“国际上不同的翻译版本”乃至“如何向非中文母语者解释这句话的意义”,可以说是非常贴心了。

文心一言:译文质量与Kimi不相上下,译为现代汉语前后同样相差不大,问题联想方面稍显逊色。

豆包:译为现代汉语前,没有明确“子”与“逝者”的具体内容,译为现代汉语后的版本进行了完善,译文质量确实得到提升。

ChatGPT:译为现代汉语前后都没有把“子”翻译出来,但在给出的解释里提到了“孔子,”而且在译为现代汉语前的回答中,准确给出了文段来源:《论语·子罕》。

简而言之,Kimi和文心一言在译为现代汉语前后,均准确翻译出了“子”和“逝者”,豆包在译为现代汉语后,将“子”和“逝者”顺利译出,而ChatGPT在译为现代汉语前后均未译出。

Round 2

题目:但是相思莫相负,牡丹亭上三生路。

题解:“但是”意为“只要”;“三生路”,此处为典故,源出三生石传说,是前世宿缘的象征。不能简单理解为三世的情缘。

译为现代汉语前

现代汉语

译为现代汉语后

Kimi

“But let not longing turn to regret, for on the Peony Pavilion lies the path of three lifetimes.”

只要彼此思念不忘怀,不辜负对方,不管经历多少艰辛磨难,有情人终成眷属。 “As long as we cherish each other’s memories and do not betray each other’s love, no matter how many hardships we endure, true lovers will eventually unite.”

文心一言

However, let not our mutual longing be betrayed; in the Peony Pavilion, our bond spans three lifetimes’ journey.

但是彼此间的思念不要辜负,就像那牡丹亭上,我们曾约定三生三世的情缘之路。 “But let not our mutual longing be betrayed; just like the path of three lifetimes’ bond promised atop the Peony Pavilion.”

豆包

However, do not betray the lovesickness. On the Peony Pavilion lies the path through three lifetimes.

只是这相思之情不要辜负了,在那牡丹亭中,有着跨越三世的缘分之路呀。

However, do not betray the lovesickness. On the Peony Pavilion lies the path that spans three lifetimes.

ChatGPT

But let not longing betray love, for on the path of the Peony Pavilion, three lifetimes await.

这句话出自唐婉的《钗头凤·世情薄》。现代汉语翻译如下:

“但是相思的情感不要辜负,像《牡丹亭》里的三生三世的情缘一样。”

“But do not let the longing love be betrayed, like the fateful love of three lifetimes in ‘The Peony Pavilion.'”

点评:

Kimi:译为现代汉语前后相差较大,前者是直译,后者进行了意译,明显后者更易于理解。且后者成功地将“但是”译为“只要(as long as)”,也正确地理解了“三生路”的意义,成功拿到得分点。

文心一言:“但是”“三生路”理解错误。

豆包:同样将“但是”“三生路”理解错误。

ChatGPT:译为现代汉语前后,都将“但是”“三生路”理解错误。译为现代汉语后,后半句译成了“像《牡丹亭》里的三生三世的情缘一样”,出现了语义理解上的偏差,也说明它不知道该句摘自《牡丹亭》。

简而言之,Kimi在译为现代汉语后,采用意译的方法,翻译质量有了明显提升。而ChatGPT在译为现代汉语后,反而出现了语义理解错误,这说明要想通过“译为现代汉语”提高英译版本的质量,首先要对文本有正确的理解。即正确理解文本内涵是准确翻译的前提。文心一言和豆包在译为现代汉语前后都未能正确译出“但是”和“三生路”的含义。

Round 3

题目:良辰美景奈何天,赏心乐事谁家院!

题解:语义理解及“奈何天”的翻译是难点。此句说的是贵族小姐杜丽娘游览自己家的后花园,发现万紫千红与破井断墙相伴,无人欣赏,良辰美景空自流逝,感到惊异和惋惜,进而抒发了对美好青春被禁锢、被扼杀的叹息。

译为现代汉语前

现代汉语

译为现代汉语后

Kimi

“In this fine hour and fair scene, what can fate do? Whose courtyard holds such joy and delight?”

面对这美好的时光和美丽的景色,我却不知道该如何享受;那些令人心情愉悦的快乐事情,究竟发生在哪个家庭的院子里呢?

“In this fine time and beautiful scene, what can one do? Whose courtyard holds such delightful joy?”

文心一言

How can the beautiful scenery on such a fine day be appreciated when fate is so cruel? In which courtyard does joy and delight truly reside?

这样美好的时刻、美丽的景色却无可奈何地空自流逝,令人欢乐愉悦的事情究竟在谁家的庭院里发生呢?

“How can such a beautiful day and scenery be wasted? In which courtyard do delightful and joyous events take place?”

豆包

Even on a day as fine as this, with beautiful scenes all around, what can I do? And where can I find the yard that offers delightful pleasures to gladden the heart?

如此美好的时光,这般迷人的景色,面对它们又能怎样呢?让人心情欢畅、愉快惬意的事又出在哪一家的庭院中呢? On such a fine day with beautiful scenes all around, what can one do? And in whose courtyard can delightful pleasures be found?

ChatGPT

出自唐代唐婉的《钗头凤·世情薄》,表达了作者在良辰美景中,因身世的无奈而感到的一种怅惘与孤独。

“What a perfect time, what a beautiful scene, yet fate is cruel; who in whose home enjoys such delights?”

另一种版本:

“A perfect time, a beautiful view, but alas, who finds joy in it?”

这两种翻译各有不同的风格,前者注重细腻的情感表达,后者更为简练直接。

这句话出自唐代诗人辛弃疾的《丑奴儿·书博山道中壁》。现代汉语翻译如下:

“美好的时光和美丽的景色是天注定的,令人赏心悦目的欢乐事物又属于谁家呢?”

“How fleeting are the beautiful times and landscapes, destined by the heavens; whose home, then, holds the pleasures that delight the heart?”

点评:

Kimi:译为现代汉语前,给出了对该句的理解,较为准确,但是将“奈何天”译为“what can fate do”,差强人意。译为现代汉语后,进行了修正。

文心一言:译为现代汉语前后相比,前者将“奈何天”译为“when fate is so cruel”,程度太重,后者译文更贴合原意。

豆包:前后差别不大,表现中规中矩。

ChatGPT:经典的“ChatGPT式”胡说八道,文段出处及理解都有错误。

简而言之,Kimi和文心一言在初次翻译时,都有理解错误,但在译为现代汉语后都进行了修正;豆包前后差别不大,语义理解相对比较准确;ChatGPT则前言不搭后语,想必杜丽娘知道了,都要感叹一句,“谁在背后造我的谣?”

 

四、结论



无论是对文言文语段的理解还是翻译,Kimi智能助手略胜一筹,表现可圈可点。文心一言与豆包则中规中矩。ChatGPT表现次之,其海外选手的身份多少是有些影响的。但也有出色之处,ChatGPT回答问题的形式:先标明文段出处,再解释字词具体含义,最后是译本评价。值得一提的是,ChatGPT在翻译“良辰美景奈何天,赏心乐事谁家院”时,生成两种可选择的译本,单就这一表现而言,有助于提高语段理解的全面性。

由此可见:大语言模型在翻译文言文时,应主要聚焦于对原文语境和文化内涵的深刻理解,同时着力于提升翻译的精准度、自然度和适应性。

01
增强语言理解能力

大语言模型需要更深入地理解文言文的语法结构、词汇含义以及语境中的深层含义。通过学习大量文言文语料库,模型可以捕捉到更多的语言特征,从而提高翻译的精准度。

02
优化翻译算法

针对文言文的特殊性,大语言模型需要优化其翻译算法,以更好地处理一词多义、古今异义、词类活用等复杂语言现象。通过引入更先进的神经网络架构和训练策略,模型可以生成更加自然、流畅的翻译结果。

03
提供多样化翻译

由于文言文翻译存在多种可能性和解释空间,大语言模型需要提供多样化的翻译选项,以满足不同用户的需求和偏好。这可以通过引入多模型融合、用户反馈机制等技术手段来实现。



大语言模型遇上文言文,是新与旧的碰撞,是科技与传统的邂逅。文言文英译有助于将中国传统文化传播到世界各地,让更多的人了解和欣赏中华文化的魅力,从而加深他们对中国文化的理解和认同。文言文英译也是跨文化交流的桥梁,提供一个了解中国文化的窗口,有助于中国文化走向世界,增强国际影响力

相信随着人工智能技术的不断发展,大语言模型在文言文翻译方面的应用会越来越广泛。在文化遗产保护、博物馆展览、古代文学研究等领域也会大放异彩。

 

好啦,今天的分享就到这里啦。哪个大语言模型是你心中的top1呢?或者你对大语言模型的文言文英译有自己的看法,欢迎在评论区留言!



特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。


发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注