与系统性术语管理相比,译者的术语获取来源主要有翻译项目中客户提供的术语文件和自己通过其他渠道获取的资源。
前一种情况下的获取的术语一般会以较为完整的内容和较为规范的文本形式呈现(如图1)。
图 1 翻译场景中的术语管理流程
而后者则大都以碎片化的术语积累为主,格式多样且术语文本的排版和内容比较不规范。例如通过微信公众号、小红书和知乎等渠道获取的术语基本以纯文本和图片两种形式呈现。其中,包含术语文本的图片一般有以下几种情况:
情况四:只有双语对照文本图片
因此,要想实现碎片化术语资源的高效管理和应用,就需要将图片汇总的术语转换为可以导入术语库的格式。以下将以上述四种包含双语术语文本的图片为例,描述术语提取、转换和管理的步骤和应用工具。
由于 trados 等 CAT 软件所需的术语库格式为 sdltb 格式,目前 Multiterm 工具是最常用来创建 sdltb 术语库的工具,而可以导入 Multiterm 的文件格式为 xml,因此需要把术语文件转换为 xml 或其他 CAT 软件通用的 tbx 格式。
目前主流的几款可以导出 xml 术语文件的术语管理或转换软件有如下几种导入格式:
-
语帆术语宝:txt、xls
-
Déjà Vu:csv、xls、Access、ODBC 数据库、MultiTerm 术语文件(XML)
-
SDL MultiTerm Desktop:xml
-
memoQ:tbx、csv、xls
-
SDL MultiTerm Convert:xls、*.mtw、 txt、csv、tbx、xml 、tdb 文件以及 mdb 文件
-
Trados Glossary Converter: xls、tbx、UTX
因此,要将图片中的术语转换为可以导入术语表的格式,大致要经过以下步骤:
-
-
软件/搜索引擎搭载的 OCR 识别功能:微信、百度翻译、Google Lens、WPSOffice、搜狗输入法、ABBYY FineReader PDF、Adobe Acrobat DC 等
-
专业 OCR 识别工具/在线平台:万能文字识别、OnlineOCR.net、i2OCR、Free Online OCR 等
-
-
AI 工具/平台:ChatGPT、有道智云 AI 开放平台、FUNAI
符合译者在工作中术语积累要求的工具一般有以下选择标准:
-
-
-
-
-
导出格式——是否支持导出多种格式,方便后续导入术语库
Tesseract OCR
Tesseract 是一个免费的开源 OCR 引擎,是目前最被业界认可的 OCR 工具之一。它支持多种语言的文本识别和处理。但是其安装过程较为复杂,操作中需要基础编程知识,因此使用门槛较高。
Tesseract 官网:https://github.com/tesseract-ocr/tesseract
安装教程:https://zhuanlan.zhihu.com/p/578700314
万能文字识别
功能齐全且易于使用的文字识别软件,拥有拍照转文字、图片转文字、手写转文字三种获取图中文本的工具,识别速度快,文字准确率高,支持批量处理,可识别多种常见语种。
在线平台:https://www.wannengshibie.com
此处以在线平台转换为例,该工具支持导入 2M 以内大小的 jpg、png、bmp 等格式的图片,支持 Word 和 Excel 文档两种导出格式。操作界面没有识别语种的选项,但是可以自动实现多语种混合文本的识别。不支持批量的图片识别和转换。
图 12 万能文字不规则术语对照文本 Word 转换效果
可以看出,该工具在 Word 转换上识别准确度高,且保留了原图片中的术语呈现形式。
图 13 万能文字规范术语表 Excel 转换效果
图 14 万能文字不规则术语对照文本 Excel 转换效果
在 Excel 转换上虽然能较好地实现规范术语表格的转换,但以非表格形式呈现的术语图片就会出现空行和对齐失败的情况。
ABBYY FineReader PDF
如上一个部分演示的,该工具除 PDF 文件,也能实现图片的批量识别和格式转换。
对于不同类型的图片,ABBYY 在 Word 转换上的表现和上一个工具类似,都能实现多语种、高准确率、保留文本呈现形式的处理结果。
在批量转换 Excel 的结果上,规范术语表也可以实现规整的表格形式输出;而对于不规则文本形式的识别,在识别前预设的不同识别类型会导出不同的结果,具体区别如下:
图 16 ABBYY 不规则术语图片“文本”识别预设
图 17 ABBYY 不规则术语图片“文本”识别结果
可以看出,对不规则术语文本图片识别时如果采用“文本”的预设识别类型,其导出的 Excel 表格会出现空行、多余符号和对齐失败的情况,且中英文文本会被放置在同一个单元格。
图 18 ABBYY 不规则术语图片“表格”识别预设
图 19 ABBYY 不规则术语图片“表格”识别结果
可以看出,对不规则术语文本图片识别时如果采用“表格”的预设识别类型,其导出的 Excel 表格就不会出现空行,且中英文文本会被放置在不同的单元格;但仍出现了多余字符和对齐失败的情况。
综上所述,该工具可以实现批量图片处理,且能自定义识别内容。但在 Excel 转换上仍然只能较好地实现规范术语表格的转换,对于不规则术语对照的图片仍会出现空白行、识别错误和对其失败等问题。
有道智云 AI 开放平台
进入该网页后,展开“产品服务”列表,选择其中的“通用文字识别服务”。然后上传要转换的文字图片(或输入对应的 URL),等待处理即可。
可以选择不同的识别内容,其识别结果对应相应识别内容的导出格式。
图 22 有道智云规范术语表 Excel 转换效果
图 23 有道智云不规则术语对照文本 Excel 转换效果
该工具网页端不支持批量图片处理,可以自定义识别内容,多种导出格式,但无法将非规范术语表内容识别为 Excel 表格。
综上,一些规范的术语表图片可以直接通过 OCR 工具较为准确地识别为各种格式的表格。但不规则术语对照的图片难以直接识别为没有多余字符、对照整齐、格式规范的 Excel 文件。 因此在大批量提取图片中的术语时,如果存在不规则、非表格形式的术语文本,最好先将识别结果导出为 txt/doc 格式,对提取的文本进行语料清洗或对齐后再统一转换为 Excel 格式。而在此案例中图片较少的情况下,也可以选择在 Excel 中利用软件搭载的工具以及人工手动调整筛查进行清理。
在第三、四种情况下,图片中没有一一对照的术语文本,因此需要借助术语提取工具来实现这类图片中存在的术语的转换。
针对情况三,相关术语中英对照文本已经给出,但是存在标点符号和术语解释等冗余信息,此处尝试使用 AI 软件的图片识别功能将图片中的术语识别出来并单独列出。在尝试了不同的 AIChatbot 以及不同的图片格式后,目前未能成功上传并识别图片文件。故此处以 Claude-2-100k 为例,上传情况三中的图片转换为 docx 格式的文件,并输入指令“这是一份中英双语文件。该文件中包括了新能源领域的专业词汇的中文和英文表达及其释义。请将该文件中包含的中文和英文术语单独列出,并以表格的形式输出。”
图 24 Claude-2-100k 上传文件及指令
图 25 Claude-2-100k 文件处理结果
可见,该款 AI 软件可以成功将文本中的冗余信息提出,但没有按照要求以表格形式输出。因此,再次做出指令。
图 26 Claude-2-100k 表格输出结果
再次做出指令后,文件中的术语成功以表格形式呈现。接下来可以复制输出结果后将术语表依照上述几种方法转换为 Excel 格式文件。
针对情况四,图片中包含的文本信息没有列出相关术语,需要借助术语提取工具来识别其中可能包括的专业术语。具体操作步骤如下:
-
用 ABBYY FineReader PDF 批量提取图片中的文本内容,以 docx 或 txt 格式文件导出。
-
将 docx 或 txt 文件导入能接收此类格式的术语提取软件,例如 TMXMALL;或者将其转换为能导入其他术语提取软件的格式,例如 memoQ 和语帆术语宝支持的 tmx 格式。此处选择前一种方式,使用 TMXMALL 完成文本对其和术语提取。
Tmxmall 是一款在线语料对齐工具,语料对齐方便用户调整对齐结果,其自主研发的智能对齐算法可以自动对齐原文,支持 46 种语言,2070 种语言对,极大提高语料对齐效率。同时也具备术语提取功能。
官方下载地址:https://www.tmxmall.com/
在线平台网址:https://www.tmxmall.com/aligner/home
(1)注册成功后进入 Tmxmall 在线对齐页面。导入 docx 术语的文件。平台支持双文档对齐,和双语文本单文档对齐。
图 27 Tmxmall 在线对齐
(2)上传文件后得到初步段落对其结果。在利用工具栏的“合并”、“拆分”、“上移”和“下移”等工具手动调整中英文段落数量一致后,点击左上角“对齐”就可以进一步实现句对齐。
此处需要手动将最后两段英文合并,使英文段落数量与中文一致。
到这里可以选择将对其结果导出,对其结果支持多种导出格式,包括可以导入其他术语提取软件的 tmx 格式,但是在线用户需要支付费用。
此处我们选择直接在 TMXMALL 中提取术语。点击右上方工具栏中的“提取术语”选项。得到 5 页中英对照术语表,可以选择到导出 Excel 文件或带词频的 Excel 文件。
此处我们选择导出纯 Excel 文件。选择需要导出的术语后即可倒出 Excel 文档。
图 34 Tmxmall 对齐结果导出 Excel 文档
至此,我们已经将原图片中的中英双语文本中包含的术语提取为 Excel 格式文件,可以用于后续导入术语库进行管理。
[1]王华树& 张政.(2014).翻译项目中的术语管理研究.上海翻译(04),64-69.
[2]王华树.(2015).科技翻译项目中的术语管理.中国科技术语(04),17-21.
https://www.bilibili.com/video/av92533419/?vd_so [4]urce=b8312ef952daa6004fa373367b643f62
[5] 王华树. 中国语言服务企业术语管理调研:问题与对策[J]. 中国翻译, 2018, 39(4): 67-72.
[6] 王华树,王少爽. 翻译场景下的术语管理:流程、工具与趋势[J]. 中国科技术语, 2019, 21(3): 9-14.
[7] 王华树,张静. 信息化时代口译术语管理及其技术应用研究[J]. 外文研究, 2017, 5(4): 72-77, 105-106.
[8] SDLTrados.2021 开工必读 | SDL MultiTerm 最全技术方案(更新版).Trados,2021,https://mp.weixin.qq.com/s/OcJSmH2pu8SMcyontBcTjA.
[9] 语帆术语宝.语帆术语宝,一站式术语管理!.语帆术语宝,2021,https://mp.weixin.qq.com/s/ksgXh9guh32-3UK3hZ8Nfw.
[10]https://baijiahao.baidu.com/s?id=1777543642463208612&wfr=spider&for=pc
[11]https://www.zhihu.com/question/318874060
[12]https://www.zhihu.com/question/318874060/answer/3073366517
[13]【Tesseract OCR 文字识别攻略】
https://zhuanlan.zhihu.com/p/578700314
https://zhuanlan.zhihu.com/p/485953371?utm_id=0
[15]https://mp.weixin.qq.com/s/FAELGRbvfkITDfa6HBvmGA
[16]https://www.zhihu.com/question/68208642/answer/3149914829?utm_id=0
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。