图 1 翻译场景中的术语管理流程情况一:格式规整的术语表图片

情况二:格式不规范的双语对照术语图片

情况三:包含术语外其他文字信息的图片

情况四:只有双语对照文本图片

- 
语帆术语宝:txt、xls
 - 
Déjà Vu:csv、xls、Access、ODBC 数据库、MultiTerm 术语文件(XML)
 - 
SDL MultiTerm Desktop:xml
 - 
memoQ:tbx、csv、xls
 - 
SDL MultiTerm Convert:xls、*.mtw、 txt、csv、tbx、xml 、tdb 文件以及 mdb 文件
 - 
Trados Glossary Converter: xls、tbx、UTX
 
因此,要将图片中的术语转换为可以导入术语表的格式,大致要经过以下步骤:

- 
电子设备自带 OCR 识别功能  - 
软件/搜索引擎搭载的 OCR 识别功能:微信、百度翻译、Google Lens、WPSOffice、搜狗输入法、ABBYY FineReader PDF、Adobe Acrobat DC 等  - 
专业 OCR 识别工具/在线平台:万能文字识别、OnlineOCR.net、i2OCR、Free Online OCR 等  - 
格式转换工具的 OCR 识别功能  - 
AI 工具/平台:ChatGPT、有道智云 AI 开放平台、FUNAI  
符合译者在工作中术语积累要求的工具一般有以下选择标准:
- 
提取数量——是否支持批量图片处理  - 
提取质量——文本识别准确度  - 
识别语种——是否支持多语言混合文本的识别  - 
识别速度——能否较快速地实现文本识别和导出  - 
导出格式——是否支持导出多种格式,方便后续导入术语库  
万能文字识别





- 
图片转 Word  


- 
图片转 Excel  


ABBYY FineReader PDF




图 19 ABBYY 不规则术语图片“表格”识别结果有道智云 AI 开放平台


图 22 有道智云规范术语表 Excel 转换效果
图 24 Claude-2-100k 上传文件及指令

- 
用 ABBYY FineReader PDF 批量提取图片中的文本内容,以 docx 或 txt 格式文件导出。  - 
将 docx 或 txt 文件导入能接收此类格式的术语提取软件,例如 TMXMALL;或者将其转换为能导入其他术语提取软件的格式,例如 memoQ 和语帆术语宝支持的 tmx 格式。此处选择前一种方式,使用 TMXMALL 完成文本对其和术语提取。  
图 27 Tmxmall 在线对齐







															