2018年,由美国耶鲁福图诺夫档案馆发起,与南加州大学大屠杀基金会、大屠杀纪念馆联合推出数字人文项目“让他们发声”(Let them speak),汇集了第二次世界大战幸存者的证词、数字历史、计算机科学、哲学和个人记忆。项目名称出自《寻找无言的受害者:大屠杀的证词与证词片段》(In Search of the Drowned: Testimonies and Testimonial Fragments of the Holocaust)这本数字专著。“让他们发声”旨在为数百万被谋杀的大屠杀受害者发声。该数字专著包含了近 2700 份英语大屠杀证词的完整数据版本,保存于美国耶鲁大学福图诺夫档案馆、南加州大学大屠杀基金会、视觉历史档案馆、美国大屠杀纪念博物馆。
自第二次世界大战结束以来,项目方已经录制了上万大屠杀幸存者的视听采访。虽然每个证词都是每个人自己的故事,但他们怀有共同的情感:渴望把他们的故事告诉世界。幸存者乐意发声(可以想见,这样做在情感上十分困难)这让学者们、档案管理员和志愿者能从他们的经历中进行学习和研究。然而,现有证词的数量之多,以及缺乏笔录和适当的搜索工具,这些问题仍然是从幸存者和受害者的角度理解大屠杀的重大阻碍。
2018 年,在耶鲁大学图诺夫大屠杀证词视频档案馆(FVAHT)的倡议下,有三家主要机构同意将其已收集的一小部分证词抄本和一些视频材料收录在本书中:图诺夫大屠杀证词视频档案馆提供了 20世纪70 年代末和 80年代初为大屠杀幸存者电影项目录制的 共180 份文字记录和视频。美国大屠杀纪念博物馆(USHMM)提供了 16世纪 至 20世纪70 年代后期记录的 1990 次采访。南加州大学大屠杀基金会(USC VHA)的视觉历史档案馆提供了 1000 年代记录的 1990 份采访记录。在图诺夫视频档案馆、南加州大学大屠杀基金会和南加州大学维特比工程学院的资助下,作者与耶鲁大学数字人文实验室合作编写、编辑和构建了这本书,并与FVAHT、USC VHA和USHMM进行了协商的。这本数字书首次汇集了这三个馆藏的近 2700 份证词,并允许大众以前所未有的形式访问、搜索和分析屠杀受害者的经历。
该出版物以发布数字格式访谈,通过利用自然语言处理和数据挖掘等现代技术来向世人展示那些证词。该数字版本围绕 BlackLab 构建,可帮助读者探索证词集。可过滤和可搜索的目录使读者可以浏览和阅读文字记录,或者观看部分证词。官方表示,未来几年图诺夫档案馆将很快开发出更多的探索性工具。
该项目建立在与耶鲁大学数字人文实验室和耶鲁大学福图诺夫大屠杀证词视频档案馆合作开发的专门构建的数字平台上。该数字平台作为独立和独立的应用程序运行,由Docker技术(见https://www.docker.com/)和Alpine Linux发行版(见https://alpinelinux.org/)提供支持;在这个网站后面有三个Docker化的Alpine Linux服务器(从技术上讲是Docker容器),它们包含了所有文本内容,以及预编译和现成的数据(推荐片段,语言注释的成绩单以及预处理和协调的元数据)。以下存储库中提供了用于运行 docker 容器的代码:https://github.com/jakekara/lts-cloud/issues。数字平台有两个后端组件和一个基于 javascript 的前端。
在此,我们重点介绍两个后端组件Blacklab和Mongo数据库。两个组件可谓相辅相成,缺一不可。有它们在,从弱水三千中找到想要的那一瓢也并非难事。
1、 BLackLab
图1 BlackLab官网首页
BlackLab 官网基于Apache Lucene全局搜索引擎库搭建,支持指令查询和相关关系查询。BlackLab 主要是为语言学家设计的,但也可以用于其他目的,如历史研究和知识提取。值得一提的是,它以 REST API(Web 服务)的形式提供,因此人们可以在任何编程语言中使用它,没有任何限制。
1. 为带注释的文本编制索引,以便您可以搜索特定的标题或词性。
2. 易于使用、有据可查的 REST API。
3. 快速且可扩展:在几秒钟内找到大型语料库中的复杂模式。
4. 使用内置格式或编写配置文件为数据编制索引。
5. 使用强大的 BlackLab 语料库查询语言搜索复杂模式
6. 在跨度内搜索,例如,在句子末尾找到包含塔的命名实体。
7. 搜索(依赖关系)关系,以在文本中找到特定的(树形)结构。(v4 中的新功能)
8. 捕获相匹配的部分。
9. 根据许多条件对结果集进行分组和排序,例如匹配项之前的文本。
10. 突出显示文档中的命中和命中的关键字在上下文 (KWIC) 视图中的命中。
其实由此可见,BlackLab在此项目中主要担任了搜索的功能,如果把它比作考古专家,那么它是那些定位遗址、将文物挖出来的考古专家,而第二个后端组件,就是将文物们整理好并运送到博物馆的管理员。
2、Mongo数据库
第二个后端组件的名字叫做“Mongo 数据库”。它存储证词元数据、HTML 中的转录本以及集体经验的分层树可视化的输入数据;它还存储着一个索引,该索引可以将BlackLab引擎中的语言数据与HTML中的脚本连接起来。Mongo 数据库中的数据支持在前端进行浏览、分面和呈现证词。
它最大的优点就是摆脱了僵化的表格数据结构,使用直接映射到代码中、对象的较为灵活的编码。将嵌套对象、矢量嵌入、地理空间和时间序列测量合并到针对性能、计算成本和生产力进行优化的数据模型中等,因此它能立即对数据库更改做出反应,并按需生成具体化视图。MongoDB使每天可以轻松接收和处理数百万个生成请求。可以说处理效率相当之高。这也就是为什么在海量的数据中,它能快速地将数据整理好,完美地呈现出来。
图2 MongoDB官网首页
翻译研究中,语料库是一个重要的组成部分。从本质来看,语料库也是一个专门用于语言学研究和自然语言处理的数据库,它主要包含自然语言的文本数据,用于定量分析和语言研究。那么,类似的组件也可以应用在外语语料库建设中。比如北京外国语大学的燚炎英汉平行语料库,该语料库库共包含500对英汉平行文本,每对文本包含约2,000词的英语原文及其对应的汉语译文。语料库总规模约260万字词,其中英语原文1,005,249词,汉语译文1,625,701字,而且用户可通过BSFU CQPweb语料库在线检索平台(http://114.251.154.212/cqp/)检索对外发布的新闻和小说部分,具有强大的语言检索和分析功能。诸如此类庞大的数据,想要精准地检索和呈现出来,或可借助似于BlackLab和Mongo的组件,可能挖掘更多可能性,发挥更大的价值,为翻译研究和文化传播助力。
介绍到这里差不多就要结束了,相信有能力的小伙伴一定跃跃欲试,想建设自己的语料库了,BlackLab和Mongo官网都贴心地附上了下载教程,相信有了数字人文技术的助力,翻译学科会有更宽广的舞台。
BlackLab官网链接:What is BlackLab? | BlackLab (inl.github.io)
Mongo官网链接:https://www.mongodb.com/
参考资料:
1. Let Them Talk官网https://lts.fortunoff.library.yale.edu/about
2. 中国社会科学院语言研究所http://ling.cass.cn/ziyuan/jikannianjian/2022/202403/t20240306_5737175.html
3. React Radux官网https://react-redux.js.org/