光学字符识别(OCR)是为本地化准备翻译文档过程中的一个重要步骤。在将文档提交给译员之前,需要对文本进行全面处理。之所以要注意文档的准备工作,是因为并非所有文档都可以直接编辑。有的可能需要使用 OCR 工具将文档转换为可编辑的格式。
什么是 OCR?
在本文中,OCR 是准备翻译文档过程中的一个步骤。它包括将文档的不可编辑版本(如 PDF、JPG 或 TIFF 文件)转换为与 CAT 工具兼容的可编辑版本,以便进行后续翻译。其中还使用了各种自动成像和文本识别工具,如 ABBYY FineReader、Adobe Acrobat 及 Expert PDF。为了确保与 CAT 工具兼容:
-
所有待翻译文本必须可编辑
-
不应将语言单位分割成若干部分(不得进行错误分割)
-
不应有不必要的格式化标记
文档结构也至关重要。需要注意:
- 章节之间不必要的空行
- 自定义页眉页脚
- 自动生成目录
- 自动创建列表
- 自定义样式
所有这些因素都确保了文档翻译前后的高质量和快速处理。
OCR 各个阶段及其自动化
在 FineReader 中检测区域
在这一阶段,根据要素的用途检测识别区域:表格、主要文本、图像及带标题的背景图像。这一过程可以自动或手动执行。需要注意的是,全自动程序可能会导致某些文本无法识别或目标设置错误。使用相同布局的区域模板可以加快工作速度。
在 FineReader 中检查文本
FineReader 包含一个用于检查可疑识别字符的内置模块。这一步骤由操作员执行,他将目视匹配 FineReader 检测到的识别错误的片段。
清除 Word 中的所有文本格式
将识别的文档传输到 Word 后,必须清除所有不必要的格式。这有助于防止CAT工具中出现过多的标记,这些标记会妨碍译员的工作并污染翻译记忆库。您可以利用宏来自动完成这一过程。
Word 中的格式设置
调整页面设置、页眉、页脚、样式和列表,使文档整体看起来尽可能与原文档相似。这主要需要人工完成,几乎没有自动化发挥的空间。
在 Word 中检查文本
检查拼写和数字。您可以使用宏来突出显示单个数字、句号、逗号和其他特殊字符,从而优化这一步骤,大大加快检查过程。
人工智能可应用于哪些领域?
人工智能应针对最耗时的步骤或出错概率高的步骤。按进行时间粗略排列的步骤如下,从最耗费人力的步骤开始:
- Word 中的格式设置
- 在 FineReader 中检测区域
- 在 FineReader 中检查文本
- 检查 Word 中的文本
- 清除 Word 中的所有文本格式
让我们看看人工智能在每种工具中的使用情况。
FineReader
在识别过程中,FineReader 采用了基于人工智能的识别技术。目前还无法利用现有软件来改进自动区域检测功能以加快这一步骤。与此同时,FineReader 还在不断发展,我们希望未来的功能能够让我们自己应用人工智能。
Word
最耗时的格式化步骤完全由人工完成,而且需要与原文档进行直观对比。将人工智能应用于已识别文档的一种方法是,将其纳入拼写、数字和单字符错误的检查过程中。计算机视觉技术已经问世。然而,在不久的将来,能够将原始图像与识别文字进行比较的人工智能工具是否会发展起来,仍然是个未知数。
在没有原始图像的情况下,使用人工智能来验证识别出的文本并不十分有效。由于无法接触原文,人工智能无法了解识别的文本或数字本来应该是什么。在这一领域,真正能改变游戏规则的人工智能将能做到把原文与识别版本进行比较。
将人工智能应用于 OCR 的机遇在不断变化
虽然人工智能有可能改进翻译文件准备工作的某些方面,如拼写和字符识别,但目前的软件功能限制了其完全取代人工验证阶段的能力。尽管如此,将人工智能应用于 OCR 的机会依然存在,并将持续发展。根本问题则在于是否有足够的长期需求。假设随着数字化的发展,需要 OCR 的内容数量会减少,那么对 OCR 的需求也会随之减少。然而,由于 PDF 格式的广泛使用,对 OCR 的需求依然强劲。目前,所有迹象都表明,这种文件格式将继续被世界各地的人们日常使用。
(机器翻译,轻度译后编辑,仅供参考)
编辑:武娇阳