转载请注明“刊载于《数字人文研究》2022年第3期”;参考文献格式:保罗・约瑟夫・斯彭斯,雷纳塔・布兰多. 数字人文中的语言敏感性和多样性[J]. 谢佳,译. 数字人文研究,2022,2(3):4-20. 全文已在知网、万方及编辑部网站(http://dhc.ruc.edu.cn)上发表,此处注释及参考文献从略。
Towards Language Sensitivity and Diversity in the Digital Humanities
保罗・约瑟夫・斯彭斯 雷纳塔・布兰多
谢佳/译
摘 要 近年来,数字人文(DH)领域的多样性愈发受到关注,但针对地理语言多样性的研究却相对较少。以往的研究通常聚焦于DH领域地理分布,或将“语言”视为有待解决的技术性或语言学问题。本文采取另外一个角度,即我们需要透过以数字为媒介的语言和文化的多重“框架”,来审视DH的多样性。这并不只是一个关于认知正义和群体间相互尊重的问题,DH领域需要更加积极地应对数字多语主义、跨文化交流和地理多样性的全球动态所带来的挑战。文章以数字研究中的“语言漠视”为镜探讨了这些问题,并响应伊莎贝尔・加里纳・拉塞尔关于DH中地理语言多样性状况应有更完善数据的呼吁。本文阐述了多种以战略性、计划性和研究为主导方式处理这种多样性的可能框架。最后,探讨了更深广的多语言关注在艾伦・刘所说的DH“多样性的技术”中所扮演的角色,并指出如能更充分地介入当代与语言相关的文化挑战,DH领域将受益匪浅,也将做出许多贡献。
关 键 词 多语言DH;语言和文化多样性;数字现代语言;语言漠视;反对数字单语主义
作者简介 保罗・约瑟夫・斯彭斯(Paul Joseph Spence),伦敦国王学院数字人文系高级讲师,Email:paul.spence@kcl.ac.uk;雷纳塔・布兰多(Renata Brandao),伦敦国王学院数字人文系;谢佳(译者),德国海德堡大学跨文化研究中心博士研究生,Email:jia.xie@stud.uni-heidelberg.de。
伊莎贝尔・加里纳・拉塞尔(Isabel Galina Russel)于2014年发表了一篇具有里程碑意义的文章《数字人文中地理和语言的多样性》(Geographical and linguistic diversity in the Digital Humanities)。她通过扩展关于多样性的讨论(主要关注了性别、阶级、民族、种族和性取向方面),来探讨语言和地域是如何在数字人文(DH)领域里形塑争论的。“谁是‘我们’?”,她在评价关于语言和区域性的新倡议时问道。这些倡议的目的是挑战英语在DH中的主导地位,增强该领域内非英语群体的自主。过去几年里有一系列文章对DH的地理文化(geocultural)构成提出质疑,拉塞尔的这篇文章便是其中之一。质疑者们通常聚焦于数字人文专业组织。这些年,至少在地理性机构建设上已经取得了一些显著的进展。比如,在她的文章发表后的六年里,数字人文组织联盟(ADHO)新增了四个协会。
虽然这一时期人们对DH的地理分布表现给予很多关注,却对地理语言多样性(geolinguistic diversity)关心甚少。其实,已有不少实践尝试着将DH的语言聚焦范围扩大,比如西语和葡语的“DH日”(Day of DH)的设立,又如《数字人文季刊》(Digital Humanities Quarterly)西语、法语和葡语特刊的发布,以及《编程历史学家》(The Programming Historian)西语版和法语版的发行。然而,尽管这些尝试已经开始为非英语使用者开辟空间,但并没有在DH研究的语言多样性和地理文化多样性上形成具有话语权的学术介入,也并未实质性地参与更广泛的以语言为重点的研究。
长久以来,DH与计算语言学、语文学等学科相接触、交叠,但它其实并未能广泛、均衡地涉及以语言为重点的研究领域。这种局面最近开始有所转变,我们看到越来越多的人关注现代语言学和其他语言学科中的数字媒介。在此过程中产生了关于跨文化、跨语言交流的交叉议题。尽管如此,本文认为,DH领域尚未同现代语言、翻译研究、少数族群语言档案或濒危语言档案等领域形成双向知识互动。“语言漠视”(language indifference)或“语言钝感”(language insensitivity),对于DH领域的数字多语主义和地理语言多样性来说是关键阻碍,对其进行更实质性、更批判性的探讨将有益于DH的成长。
纵观历史,关于DH语言多样性的讨论和意识往往集中于学术交流政策。虽然这很重要,但为了实现变革,DH和以语言为重点的研究领域之间应该建立更广泛的互动轴。本文将会搭建一系列认知框架和视角来探讨这个话题,进而研究DH中语言多样性的关键特征。本文首先追踪新兴的(以及交叠的)DH网络和DH实践群体,并勾勒其大致轮廓,它们可以粗略界定为“多语言DH”、“翻译和跨文化数字学术”(translingual/transcultural digital scholarship)或是“数字现代语言”(digital modern languages)。之后将讨论它们给DH领域的战略方向和学术议程带来的影响,并提出一些理论和实践框架,以将DH中的语言多样性模型化。在此之前,我们将简要探讨应对此问题的两个有用框架:一是地理语言多样性,二是“语言钝感”概念( 即“语言漠视”)。
据濒危语言项目组织估计,世界上大约有7000种活语言,但其中超过40%已濒临灭绝。大卫・格拉多尔(David Graddol)在2004年预测,未来多达90%的口头语言或将不复存在。
有些学者从生物文化多样性概念出发,把对语言存活的关注与影响人类生存的生态威胁联系起来。在欧洲,许多文件强调了保卫作为“活遗产”的语言和文化的重要性,因为其既是区域认同的关键因素,也是社会和物质财富的一大驱动力。与此类似,近年来的一系列研究表明,从多项指标上看,使用多语言对个人和社会都有益处,包括促进个人早期认知发展及防范后期认知老化。虽然有些人警告称:围绕语言濒危的讨论是一种危险的将其“本质化的话语”(essentializing discourse),并建议关注语言认同中的一种“多项式”(polynomic)模式。但毫无疑问,语言的区分在文化生产和相关知识实践中发挥了重要作用。
在学术界,2001年《维也纳宣言》(Vienna Manifesto)对学术机构解决“单语主义的代价” 的一系列措施进行强调之后,整体的国际政策几乎没有任何调整。查尔斯・福斯迪克(Charles Forsdick)在探讨“科学的单语主义”(scientific monolingualism)及其潜在的认识论威胁(或称为“对知识体系的杀伤”)时,强调了多语言知识流动的重要性、翻译的价值以及拥有强语言意识的多文化研究团队所带来的更广阔的研究空间。2018年的OPERAS《多语主义白皮书》指出,“对语言系统的选择往往意味着对参考框架、方法论和学派的选择”。2016年,马特・皮克尔斯(Matt Pickles)在BBC网站上发表了一篇探究是否“英语的主导地位(或将)会伤害全球学术”的文章。该文章引用了其他学者的观点,列举了各式各样的挑战,包括不同的修辞文化,忽视其他语言的工作所造成的研究范围和研究质量的限制,只使用单一语言导致的认识论偏见,以及阻碍知识流动的事实上的区域“闭锁”效应。这在DH领域绝非新鲜话题,过去已有关于“DH与知识的地缘政治”的讨论。例如,多米尼克・菲奥蒙特(Domenico Fiormonte)提出,在英语区国家DH领域流行的一些标准和技术文化规范对生物文化多样性(biocultural diversity )构成了威胁。然而,在更广、更细地探查多样性的基本动态方面,尤其是与语言文化因素相关的方面,DH领域内几乎没有过步调一致的努力,因此伊莎贝尔・加里纳・拉塞尔说道,“这方面的已有信息微乎其微”。
查尔斯・福斯迪克等人批评了存在于众多学科和非学术部门的不易被人察觉的单语预设,认为对语言不敏感是整个学术界需要改变的现象。无独有偶,2018年的一份《现代语言的跨国化》(Transnationalizing Modern Languages)项目报告认为,我们需要反对语言漠视,突出语言和翻译工作;我们需要强调,语言不是中立的存在,而是与社会生活的文化、政治和经济层面有着深刻联系。报告还认为我们应该在教育系统和日常实践中关注语言。那么,从DH的角度来看,这里所说的语言敏感度,远不止是简单地在多语言选项前打个勾;它要求我们首先要弄清楚,(多)语言是如何与文化以及群体的概念联系在一起,塑造我们在DH工作中对位置和视角的感受。
DH和其他大多数领域一样受到“单语预设”的影响,虽然已有一些举措,如“DH全球展望”(Global Outlook DH)翻译工具包。这一工具包为多语言会议礼仪提供建议,代表了与单语主义模式相反的全球包容性学术交流的语言敏感模式。然而DH的内部实践还有很多地方亟待改进。诚然,这些重要成果十分关键,有助于引起关于DH政策基础和学术交流的更广泛讨论。但本文认为,政策方面的回应只是其一;对于语言敏感性和语言多样性,我们不仅要视之为DH交流实践中的一个关键因素,还应该把它视作DH研究议程的一大基本特征。换句话说,我们并不是仅仅把语言漠视作为DH学术交流中的设计缺陷,而是要将克服语言漠视当作极为重要的研究和教学挑战。
洛雷娜・波莱齐(Loredana Polezzi)在呼吁开展反对语言冷漠的运动时认为,正是语言的“无处不在”使其经常被忽视,但语言也“总是多样的,总是不同的”。在这种背景下,我们认为对数字研究至关重要的是要摆脱两种观点:一是狭隘地以语言学角度看待“语言”,而割裂其文化背景;二是仅将其视为纯粹的“技术”问题,认为只靠数字工具就能解决.
要想解决数字研究中的语言敏感性和多样性的问题,首先得意识到我们面临的挑战有多大,这是本文的核心主张,而挑战的大小则取决于异语言群体及其语言和文化的可见性。解决数字语言多样性问题的核心障碍是,它所依靠的理论和实践间存在高度割裂。本节主要通过六个视角来探讨数字语言多样性怎样以及在哪些方面成为DH的焦点:(1)“全球DH”的争论和提议;(2)DH中的地理语言团体;(3)语言技术及相关实践和研究;(4)现代语言领域;(5)关于互联网多语言的社会语言学研究;(6)多语言DH的基础设施。(1)嵌入了对全球分歧的更广泛分析,(2)是由地理文化及语言所处的地位所决定,(3)(4)(5)分别以语言、文化和多语主义为研究对象,(6)的关注重点则是努力在数字生态系统中促进地理语言和文化的多样性。本文在此提出的一系列不同寻常的视角,使得此话题在讨论范围和术语使用上都极具挑战性。但我们坚信,要分析语言多样性的未来意义,就必须全面考虑这六个角度。
正如我们所见,DH领域对地理语言多样性的关注较少,且主要集中在内部的学术交流上。国际数字人文机构也没有相关措施来促进和提升这种多样性。到目前为止,数字人文组织联盟(ADHO)的多语言和多元文化委员会所举办的活动,仅限于用多语种翻译其数字人文年会的论文征集令。倒是GODH组织带来了语言意义上的转变,除了上文提及的翻译工具包之外,他们还推进了“DH耳语者”(DH Whisperers)倡议,以鼓励DH活动中的非正式翻译。其他地方也有类似的项目,如数字人文翻译网络“RedHD in Translation”,旨在提供西班牙语DH学术的快速翻译。
这些活动使得全球多语言数字学术近来得到了更多形式的体现,如Force 11旗下的“开放、多语言和全球学术交流”工作组(Open, Multilingual and Global Scholarly Communication)。该工作组对全球学术交流界发起挑战,试图更开放更公平地建立、发展跨越文化、语言、宗教、地域、边界、学科和世界观的跨文化翻译关系;同时开发了“Open Methods”平台,采用以语言为重点的方式来选择、维护DH研究方法和工具,从而支持DH中的多语言和多文化身份。这些新的举措催生了相应的工具包,这些工具包需要在追求普适性和侧重区域性之间进行取舍,这取决于其产生背景。
区域性的DH专业协会与语言身份认同有着千丝万缕的联系,但目前这种联系总体来说是内隐而非公开的,至少在涉及ADHO的正式成员组织时是如此。在ADHO网站目前列出的十个成员组织中,只有加拿大数字人文协会(CSDH/SCHN)、欧洲数字人文协会(EADH)、法语区数字人文协会(Humanistica)和日本数字人文学会(JADH)在其网站的“关于”页面中明确提到了语言多样性,其他组织仅仅提及了当地或“本土”知识。并且只有成立于2014年的法语区数字人文协会将语言作为重点。该专业学会通过创办法语期刊《数字人文》(Humanités numériques)等一系列活动,团结并促进所有法语区的DH研究,无论其所在地理位置。在欧洲这一层次,还有一个德语区组织——德语区数字人文协会(Digital Humanities im deutschsprachigen Raum)。不言而喻,这些地理语言团体在某种程度上受到殖民主义或其他历史潮流的影响,这种情况影响了他们对特定语言权力动态的介入。
最近在非洲和欧洲发生了一系列事件,其中一些强烈关注地理语言,促使非洲数字人文网络(Network for Digital Humanities in Africa)于2020年形成。在荷兰乌得勒支举行的2019年国际数字人文年会上,一个由多位非洲研究人员组成的小组强调了将非洲语言置于全球数字景观中的挑战;而后在2020年国际数字人文年会上(线上举办),一个后续成立的论坛试图在促进非洲DH学术研究的更广阔的运动中巩固这一点——通过倚借语言团体之力,寻求促进机制,以在非洲更广泛地获取非洲的及其他语言的数据。
像这样由地理语言团体主导的新倡议(以及来自资助者和其他DH组织的必要战略支持)无疑为解决DH中的语言多样性问题提供了一种非常有效的路径。下面我们来谈谈以语言、文化和多语主义为研究对象的方法。
在讨论作为研究对象的数字多语言时,语言技术(从学术研究和专业实践上来看)是一个显而易见的出发点。我们不希望低估其在促进数字语言多样性方面将发挥的重要作用。就欧洲层次而言,数字多语言的学术和商业基础设施的宏伟愿景,如CLARIN的语言资源总汇和欧洲语言网格项目(European Language Grid project),可以在那些高资源语言环境中提供有效的回应。但在往往被先进的计算方法边缘化的低资源语言环境中,语言技术方法需要考虑语音技术、适应性自然语言处理(NLP)策略、图形/多模态界面的重要性,以及在识字率低、书面数据可用性差和缺乏语言标准化或没有文字地区的群体参与问题。
本文的一个关键参考点是针对现代语言/现代外国语言(ML/MFL)领域和数字文化之间互动的新兴研究,以及西娅・皮特曼(Thea Pitman)和克莱尔・泰勒(Claire Taylor)在2017年发表于《数字人文季刊》的文章中提出的“基于现代语言的DH”(“ML-inflected Digital Humanities”,或者“DHML”)概念。作为正在进行的研究的一部分,我们还将在别处继续探讨DHML概念,但在我们看来,这一讨论的一个基础要素是“由文化、语言差异和他者所形成的肥沃的差异土壤”。艾莉森・菲普斯(Alison Phipps)和迈克・冈萨雷斯(Mike Gonzalez)认为,现代语言等领域或许在这个关键之处有潜力进行更多理论研究。当DH和ML的合作涉及埃利卡・奥特加(Élika Ortega)所说的“文化碰撞和文化混合的叙事”(narratives of cultural encounter and cultural mixing),或揭示出跨国、跨境动态时,它们是最富有成效的,这显然对多语言(和跨语言)敏感度提出了要求。这种观点在我们与数字方法和生态系统的接触中,引发了更宽泛的“文化和文化表现”概念。广义地说,这个话题突出的是语言教育和研究的文化面,但DH领域对此的回应(通常集中在狭窄的技术层面或以语言学方面为主)显示出这一面相的缺失。这就是保罗・斯彭斯(Paul Spence)和娜奥米・韦尔斯(Naomi Wells)的“数字现代语言”(Digital Modern Languages)项目所要应对的挑战。该项目包括系列研讨会、系列博客、一个拥有400多名成员的讨论列表,以及利物浦大学的开放获取平台“Modern Languages Open”中的“出版区”(publication section)。
本文在此并不是说现代语言领域是有关翻译和跨文化动态的唯一知识库,而只是认为该领域将会越来越多地作用于帮助DH应对未来的跨语言和跨文化挑战,并有助于应对本文所言范围之外的其他挑战,如“国际课堂”、多语言教学法等。
目前对互联网多语主义的研究大多是由社会语言学家进行的,主要研究的是人们在线上和线下实践中的语言表现、身份认同和社会文化生产之间的关系。如果DH能与这一研究领域更紧密地合作,必将受益良多。该领域在很多方面有着重要成果,DH领域在阐述自己的多语言框架时可以有效加以借鉴,包括:多语言者在不同场景中的语言选择;数字生态系统中的多语言负担和障碍;在单语言主题下开展的“多语言实践”;数字媒体公司对多语言的构想和实施方案;以及多语言带来的不同思想、技术和社会实践。
在英语国家,尽管围绕多语言DH的讨论还主要集中在数字人文全球展望小组(Global Outlook:Digital Humanities)的活动上,但近年来,诸如“多语言DH网络”(Multilingual DH network )、“从右至左书写的语言和文化研讨会”(workshops for Right-to-Left languages and cultures)和“非拉丁文字研讨会”(Non-Latin Script workshops)等尝试已经开始探索数字研究中的地理语言多样性问题,以应对具有主题性及实际性的挑战,尤其是在数字文化水平、脚本/文本表示、光学字符识别(OCR)、数据整理、NLP和可视化等领域。虽然这些尝试目前仍向高资源语言倾斜,但它们为推动DH领域的跨语言研究提供了可喜的动力。
更详细的案例探讨将在下文中呈现。在本节末尾,我们想强调一点:讨论DH的语言敏感性和多样性不可避免地会涉及观念、社会和技术等多重角度,这些应该分步来解决。首先,更清晰地认识到挑战的范围;其次,为多语言研究或是对语言敏感的研究设计新模式并加以阐述;再次,应用对语言敏感的研究方法并启用相关基础设施;接下来,联合践行地理语言多样化的团体;最后,阐明DH领域在打击数字研究里的“语言漠视”方面起到的具体作用。
与许多来自英语世界的人所预设的相反,单语制才是世界上的例外,而且可能会在某一天被视为历史上的“怪事”。人类冲突、经济移民、流散群体及信息和通信实践当中的新发展都印证了这一观点,这些变化促进了跨国和跨语言的人类关系日益加深。然而,当语言实践越来越受到“超多样性”(superdiversity)的影响时,全球语言多样性遭受到冲击,低资源语言正处于濒临灭绝的险境。这里需要注意的是,虽然英语的主导地位无疑是最主要的威胁,但它也是更广泛的语言多样性动态中的一部分。我们不应该以国家为界限去预设一种规范性的单一语言,但并非只是英语世界在煽动这种错误预设,我们也可以观察到阿布拉姆・德・斯瓦恩所说的“超级中心”(supercentral)语言(如西班牙语、法语、阿拉伯语和汉语普通话)的地位在全球范围内日益巩固,而英语则是“超中心”(hypercentral)语言,这种现象将日益成为DH领域和整个学术交流的一个主要挑战。所有这些都对DH如何处理语言多样性和如何理解未来的知识流动有重大影响,目前这些影响在DH以及广义的数字领域中还未得到充分研究。
尽管数字平台对这一问题越来越敏感,但总体而言,语言多样性在数字环境中没有得到很好的体现。可能只有几百种语言被积极且大规模地用于网页。有证据表明,在一些大众/数字“媒体景观”中,语言多样性的地位更高,具体因不同的数字工具和媒体而异。就像丹尼尔・普拉多(Daniel Prado )指出的,非正式的媒体,如博客或聊天工具,比正式的数字媒体呈现出更高的语言多样性。同样,丹尼尔・坎利夫(Daniel Cunliffe)指出,社交媒体更贴近日常生活,这一性质有利于低资源语言的使用。虽然这方面已经有了一些做得很好的民族志定性工作,但相关研究和工具的缺乏,使我们难以了解数字媒体中语言多样性的规模,有志于该研究的项目或行动又总是难以获得应有的稳定环境。这使得我们很难对数字通信中语言多样性的总体程度得出实质性结论。因此,至少现在来说,我们仍缺乏关于数字媒介知识生产中语言流动的关键细节。但毫无疑问的是,大多数全球知识生产工具强烈偏爱英语,然后是少数高资源语言。鉴于这种情况,DH领域在未来几年的一个关键挑战是更好地理解和分析这些动态,然后设计相应的策略来打破数字单语主义。
在艺术与人文研究委员会(AHRC)资助的项目“语言行为与世界建构”(Language Acts & Worldmaking,2020年)中,我们对DH基础设施中的语言覆盖情况进行了研究。作为该研究的一部分,我们调查了一系列DH项目和资源库,研究了它们体现了语言的哪些特征以及如何体现关于语言的信息。自DH诞生以来,基于语言的研究一直是其核心的一部分。但尽管以语言为重点的项目占了显著比例(据我们调查,在目前已停用的DH Commons门户网站上列出的794个项目中有84个以语言为重点),我们发现,与其他同源学科(如英语或历史)相比,它们之间的关系略显模糊,没有得到充分阐释。目前,虽然基于语料库的研究基础设施(如CLARIN)开展了有价值的工作,但总体而言,在网上想从DH研究的语言焦点里窥探其性质和程度并非易事,即便是其他优秀的、看似语言丰富的资源也是如此,比如EADH (The European Association for Digital Humanities 2019)项目列表——我们研究发现,虽然列表上的项目通常都有不错的多语言覆盖率(尤其是语言导向的研究),但整体的实际语言覆盖似乎只偏向于极少数语言。列表里共有197个可访问项目,其中72%使用英语,19.8%为德语,此外只有三种其他语言覆盖率达到5%以上。因此,首先要做的就是在整个DH领域中落实对多语言资源和方法的更大认可,并进行更好地组织,DH研究的资助者、学术机构和专业协会都可以为此做出贡献。
虽然在领域内的学术交流实践中关注语言多样性很重要,但同样重要的是,DH应将语言多样性作为一个研究课题,以为之做出更大贡献。DH可以在许多地方发挥更大的作用,其中之一就是为低资源语言分析并设计重要的基础设施。事实上,尼克・蒂博格(Nick Thieberger)于2017年在《数字人文学刊》(Digital Scholarship in the Humanities)上发表的一篇文章认为,让世界上的小语种信息更容易被免费获取,这应该成为一个DH项目——我们可以增强语言库的可见度,开展措施融合濒危语言资源,提高口述材料的价值等。
DH学者已经在一些保护濒危、低资源或遗产性语言的重大项目中表现活跃。墨西哥的许多项目试图维护前西班牙时期语系的丰富性,如纳瓦特尔语、萨波特克语和玛雅语。像CLARIN的“语言多样性和语言文献知识中心”(CLARIN Knowledge-Centre for linguistic diversity and language documentation)这样的设施则提供了关于数据、方法和工具的专业知识,带来大量的数字研究机会。然而,世界上许多最濒危的语言是口头传统的,或者缺乏有意义的书面记录,这种情况对以文本为基础的DH工具集构成了特别的挑战。即使是那些具有强大文字传统的大型语言,现有的工具也往往只能提供有限的语言支持,而且基本上都是基于欧洲语言的范式。
此外,那些带有“语言”维度的措施,主要集中在“数字”如何改变“语言”,暗示了语言是在不可避免地、单向地被“数字破坏”。我们认为,现在迫切需要从相反的角度探讨“数字”和“语言”之间的关系,即更好地了解数字研究项目是如何被特定的语言文化背景所塑造(和破坏)的。因此,举例来说,要对语言在DH中的作用有一个更全面的认识,就必须对语言/文化多样性如何挑战数字研究生态系统有更深入和更细致的了解。
我们对数字研究环境中语言差异的理解还远未成熟,但简单的调查就足以证明影响这种差异的一系列要素,其中包括语言、文化、技术和学术等方面。例如,我们从实践的角度来看看托马斯・穆兰尼(Thomas Mullaney)进行的一项对比:西欧和美国的数字媒介环境充满活力,即便非专业用户也能下载现成的分析平台和数据语料库,进入新的、前沿的研究领域进行探险;而在亚洲,DH研究的许多最基本要素仍然不发达,甚至不存在。
如前文所述,在应用语言学和社会语言学领域里有着广泛的互联网多语言研究,这为数字多语言的讨论提供了有用的社会学和语言学背景。尽管如此,这些研究并不涉及支撑DH研究的各种方法、重要基础设施和内容。能使DH领域受益的,比如说,是探讨以下问题的研究:是什么影响了DH研究对特定工具和生态系统的文化偏好?或者,不同地区的官方和非官方媒体渠道的使用差异如何影响DH研究人员在特定情况下对语言的选用?
我们把目光转向以语言为重点的学术领域与DH的互动方式。特定领域的数字学术形式被其自身的历史、文化和认识论及其主要的研究对象牢牢塑造。举几个例子(在英语背景下),我们看到:在以数字为媒介的拉丁美洲研究中对视觉艺术和社会争论的某种强调;中国研究中的DH强调文化遗产和建设历史数据库的传统;意大利研究中的DH则关注跨艺术和跨领域研究;而亚洲研究中,DH聚焦数字媒介的政治、社会和文化面向。这并不是说以上所举是“数字”与语言、文化在各领域进行配对的唯一表现形式,但领域之间的确存在差异,而且在某种程度上,一个特定领域历史和当下的定位、归属(例如是属于“现代语言研究”还是“区域研究”,是属于人文科学还是社会科学)对其身份和构成有明显的影响。
全面客观地阐明所面临的挑战远远超出了本文的范围,哪怕只是关于那些世界上最广泛使用的语言。但我们需要具备一定规模和深度的研究,比如,2007年布伦达・达内(Brenda Danet)和苏珊・赫林(Susan C. Herring)编辑的《多语言互联网》(The Multilingual Internet)一刊致力于描述语言、文化和网络交流的状况;NetLang的出版物《走向多语言赛博空间》(Towards the Multilingual Cyberspace)所载研究在2012年调查了多语言技术、数字空间、包容性和互联网治理。对“多语言DH”现状进行深入检视将大大有助于推动DH中的语言敏感性和多样性议题,这样的工作可能包括按语言或语系进行的案例研究、对塑造我们交流实践的基本数字基础设施的景观研究、对DH工具的“多语言准备度”的评估、多语言DH平台设计的实践、多语言数据动态的分析,及设计语言兼容性方案竞赛。
在考虑了数字生态系统中语言本身和语言学科的一些基本动态之后,本文将提出一些实际的方法,以在DH的研究议程中推进语言多样性,并思考这些方法可以如何重塑DH的研究实践。
我们如何阐明一个广义的概念框架来有效处理DH中的语言敏感性和多样性问题?这个领域的正式理论和实践工作都相对较少,但语言文献和少数族群语言研究领域提供了宽泛的框架,可以作为有用的出发点。“欧洲多语言技术联盟卓越网络”(Multilingual Europe Technology Alliance,META-NET)在欧洲范围内对语言技术进行了广泛的调查,以促进欧洲多语言信息社会的技术基础。其32卷《语言白皮书》系列研究了欧洲语言的数字准备情况,包括小众语言;并就机器翻译、语音处理、文本分析和语音及文本资源对不同欧洲语言的支持程度进行了跨语言比较。虽然自2012年白皮书发布至今,状况难免发生了一定程度的改变,但有些事情依然如故,比如该系列概要所证实的——以英语为代表的一些语言,享有高度的、整体性的数字支持,而其他大多数语言获得的支持则弱得多。
在数字环境中获取语言使用的指示性数据,也是一个众所周知的挑战。但更好地理解各类动态如何影响语言使用,显然有益于在数字研究中开展具有语言意识的研究方法,而理想状态下,这需要一套通用标准。丹尼尔・皮米恩塔(Daniel Pimienta)在丹尼尔・普拉多等人早期工作的基础上,对互联网上的语言和文化进行了分析,考虑六个关键指标(互联网用户、内容、互联网使用、流量、界面/翻译的可得和信息社会指数),以指导四项总体的宏观指标,从而掌握互联网语言的现状。另外,还有一个“数字语言多样性项目”(Digital Language Diversity Project),旨在推动欧洲的地方语言和少数族群语言在数字世界中的可持续性。该项目提供了一套分析和培训工具,并辅以项目建议书、“数字语言生存工具包”(Digital Language Survival Kit)和“数字语言多样性路线图”(roadmap to digital language diversity),目标人群为政策制定者和其他利益相关者。项目提议分为三个方面:“数字能力”(数字素养、字符编码及输入输出方法、语言资源的可得),“数字存在与使用”(电子通信的使用、社交媒体的使用、互联网媒体的可得、维基百科等),“数字性能”(互联网服务的可得,社会网络本地化,软件本地化:包括操作系统和基本软件、机器翻译服务、专用的互联网顶级域名等)。还有一个有趣的案例研究是关于巴斯克语的数字健康报告(考虑到在欧洲范围内使用该语言的人相对较少,其健康状况一般来说是非常乐观的),该报告提出了12条建议,包括对其内容的关注、技术发展的规划、数字媒体的本地化、对于开放知识的宣传和政策。这些例子给我们提供了几个指针用以思考数字语言多样性的监测框架,但是要更完善地针对DH领域,必须借鉴基于语言学/语言文献资源所进行的更多研究,比如CLARIN虚拟语言观察站(Virtual Language Observatory)、语言数据联盟(Linguistic Data Consortium)、欧洲语言资源协会的语言资源目录(ELRA Catalogue of Language Resources)等。
评估DH学科的语言多样性需要什么样的框架?这些框架或将超出本文所设想的范围,但相关研究人员在研究低资源语言(包括库尔德语和苏格兰的盖尔语)的数字状况时,提出了一种基于“基本语言资源包”(Basic Language Resource Kit)的方法,以搭建资源较少语言和少数族群语言团体的“DH准备”。这个框架包括六个基本部分:DH研究的成熟度(在特定的目标群体中)、DH教育的状况、数字媒体的状况、语言的数字可见度和可计算性、DH工具和数字化资源的存在情况。
这种方法仍然强调语言的“数字准备度”。我们怎样才能颠覆这种模式,去评估DH的“语言准备度”?一个更广泛的DH语言多样性框架应该是怎样的,它需要涵盖哪些领域?在我们看来,这样一个框架需要自下而上的措施,吸收在地理方面、语言方面及主题方面有代表性的声音。在这里我们初步地指出一些战略性领域,在这些领域,DH团体可以在其研究实践中促进语言多样性。
● 分析和监测DH地理语言多样性。如前文所述,为了在任何严肃意图上正确地研究全球知识流动,DH研究需要提高对这种多样性如何在内容、发现机制、工具和群体等关键指标方面运作的理解。对此,一套基准化术语连同定期对研究现状进行调查会非常有用。这就需要分析对语言多样性动态有激励和阻碍作用的社会因素和技术因素——数字学术在不同的地方受到不同力量的影响。深入分析在这一领域已经开展的工作将有助于在研究设计中提高多语言意识,并有助于DH领域在明确数字研究生态中反霸权模式的要求方面做出贡献。
● 促进DH研究中对语言敏感和多语言的实践。虽然已经有了一些有趣的多语言主义尝试,但DH还可以做更多的工作来推进多语言实践,例如在其学术交流中积极推广多语模式,或者支持多语期刊和传播实践。我们经常听到DH的研究人员提到,一些非英语母语者喜欢用英语交流以接触更多的受众。这固然不错,但并不是大部分研究人员的切身经验,他们并不在这种预设之中,而且这也忽略了因为具体平台的不同或因社会技术的激励/阻碍而产生的语言行为差异。2014年,罗斯・珀林(Ross Perlin)在一篇题为 “互联网——语言葬身之地?”(The Internet, where languages go to die?)的文章中认为,网络世界里几乎只存在单一的文化,是地球上少数主流文化相互交谈的回声室。DH如何挑战这种观点?更加明确且上进地推动“语言”议程将有助于确保DH不会成为单语主义或超中心语言霸权的附庸。
● 与以语言为重点的领域进行双向合作。DH为基于语言的研究设计提供了新的范式,但与现代(外国)语言学、社会语言学的多语言研究、翻译研究或语言教学法等领域的语言研究相比,目前DH的理论化程度仍然不足。加强与现代语言和其他以语言为重点的研究者/实践者的合作,将有助于纠正前文所描述的DH与以语言为基础的学术议程之间的单向主导关系。解决这个问题的方法有很多,包括资助者的政策(增加对语言及语言多样性的关注)、DH专业协会的战略,以及研究界本身的作为(提出自下而上的措施)。
● 指导、案例研究和培训。我们认为,可见度是DH和整个数字研究处理语言问题的关键挑战。问题是,许多研究人员目前没有时间和精力去做额外的努力,以实现更高的语言包容性。为DH研究人员提供指导、案例研究和(简单为主的)培训,将在一定程度上帮助他们跨越这个“学术文化”障碍。
即使怀着最好的意愿,目前DH基础设施也无疑严重偏向英语研究和英文内容。邓布罗夫斯基(Quinn Dombrowski)在即将发表的文章中认为,英语在数字文化中的普遍性往往意味着,对于大多数在英语国家的学者来说,英语和其他语言之间的差异几乎都被无视了。
目前,就全世界的语言而言,DH学科的研究方法和基础设施给予的支持非常欠缺,对于非拉丁文常常失效。在乌特勒支举行的2019年国际数字人文年会上,一个研讨会将多语言DH实践者聚集在一起,专注于涉及非拉丁字母(NLS)的研究。这一领域近年来取得了明显的进展,但其影响在整个英语DH界却鲜为人知。研讨会讨论了众多领域面对的挑战,包括多语言数据整理、OCR、字符/符号识别、数字研究生态系统设计、标注、元数据、数据/文本挖掘、命名实体识别(NER)和机器翻译。这可以视作DH研究人员与图书馆/文化遗产部门合作伙伴之间对话的一部分,目的是提高对数字学术基础设施设计和维护方面的NLS挑战的认识,并与聚焦“从右到左”(RTL)的语言文化的数字研究一起,代表了扩大先进DH研究中语言覆盖范围的持续尝试。
受2019年非拉丁字母研讨会的启发,最近成立的“多语言数字人文网络”是一次新的尝试,其目的是解决“缺乏稳定的非拉丁语脚本工具”问题,消除DH基础设施中对非英语语言的普遍偏见。该网络展现出由团体主导的、以汇集“处理多语言、多文字数据的良好实践”为目标的努力,它提供了多语言和一些特定语言的资源、用于多语言NLP的GitHub项目,和即将出版的“富有生命力的”非拉丁语DH手册。
诸如此类的项目,既有助于提高非英语在英语区DH中的可见度,也为未来的多语言发展提供了实用支架,但更广义而言,它们为DH基础设施带来了哪些指导呢?首先,这些项目向我们强调了,在挑战单一语言预设、更深入理解其对DH方法和基建的影响方面,DH需要得到更多支持。第二,它们阐明了深化跨语言合作的潜力。即使是在欧洲层面,该领域有大量的政策支持,也难掩DH中语言技术的分化,这条路仍任重道远——我们需要维持不同语言的DH基础设施,使现有的DH工具更容易适应英语以外的语言,并且提高非英语工具在全球DH环境中的可见度。第三,这些项目向我们强调了在基础设施中添加语言标签的必要性。“班德规则”(Bender Rule)建议那些使用英语的研究者“说明所研究的语言的名称,即使它是英语”,发起人艾米莉・班德(Emily Bender)认为这是扩大语言学覆盖面的关键因素(她所用的案例属于自然语言处理领域)。受该规则影响,邓布罗夫斯基表明了在DH中将语言使用加以体现的重要性,这对基础设施尤为重要。一个特定的基础设施是用什么语言运作的?一个特定的工具能用于哪些语言?目前,这两类信息在数字研究生态系统中几乎鲜有提及,致使语言多样性在DH研究设计中不那么容易实现。最后,这些项目也展示了可发声的团体能发挥不可或缺的作用。在马丁・本雅明(Martin Benjamin)对数字语言多样性的“价值主张”(value proposition)更广阔的评论中,他认为非常重要的一点是研究人们对多语言的态度和行为,以促进这种多样性,并确保可发声团体中的利益相关者在语言基础设施设计中发挥更大的作用。DH领域将受益于探讨激励和阻碍基础设施多样化的因素这类研究,因为其对于语言流动的形态有明显影响。
所有这一切对未来的DH研究意味着什么?艾伦・刘(Alan Liu)在关注多样性时简析了DH所面临的多语言挑战,提出“多样性的技术”(the techne of diversity)或许是DH对文化批评的“独特的、而非后续的”(unique, as opposed to follow-on, contribution)贡献。他认为,我们需要支持多样性的“新范式”和“平台”。在文章的扩展稿中,他提议用“多样性堆栈”(diversity stack)来取代对DH的“大帐篷隐喻”(big tent metaphor),这是一种对多样性的多层面处理方法,它在未削弱社会和文化维度的前提下,为DH中多语言、多媒体、基于语料库、时间类型及与身份相关的多样性挑战,提供高度技术性的方案。如果我们接受这一呼吁,建立一个新的、融合的“技术-意识形态装置……可以用来完成迫切需要的工作”,那么在关于语言和地理文化上的缺陷与分歧的辩论中,我们如何去设想让DH做出更实质性的回应?这样的回应有什么独特的“数字人文式”的特点?
艾伦・刘对多语言DH的处理凸显了目前有效开展跨语言研究的困难。他借鉴了以往在英语/拉丁语主题建模方面的工作,也参考了“多语言主题模型”和神经网络翻译生成的“因特语”(一种由机器生成的新兴的过渡语言形式,是一种纯粹的比较主义)作为计算驱动方法的例子。这些方法将使我们能够有效地查询混合语言集合,并在同时构建能够挖掘异同性的数学模型。跨语言的DH研究仍然比较少见,但在以下方面有了很好的发展:文学文本的跨语言语料库建设,以“收集、处理和可视化跨语言数据的探索性模型”为基础的面向译介文化生产的跨语言“远读、深读和近读”方法,以及通过文本和视觉证据研究重大事件的跨语言方法。
正如艾伦・刘所说,“数字人文需要解决语言问题”。我们更进一步认为,虽然先进的计算模型肯定能为应对语言挑战做出重要贡献,但我们不应忘记,数字人文对此的有效回应需要包括社会、文化和技术三方动态的结合,这应该由语言学科和专业性的计算视角来推动。我们尤其认为,数字人文如果能在这个时代与语言相关的文化问题上发挥更重要的作用,它将受益匪浅。DH作为一个整体,在面对文化争论时明显失声,就比如语言文化领域中“人工翻译VS.机器翻译”或者“人类语言VS.计算语言”的辩论。这些文化争论背后都有套路化的二元对立在运作。它们往往由一个简单化的话语驱动——“技术导致的破坏无法避免”,这一话语试图掩盖比如不均衡的数字语言支持、语言的口头性、文化视角等问题的复杂性。不过,可以认为,DH具有相当的潜力,为数字架构、方法和内容提供一种替代性的、多语言主义的重新定向。
罗皮卡・里萨姆(Roopika Risam )在《其他世界,其他DH——注意DH的“口音”》(“Other worlds, other DHs: Notes towards a DH accent”)中指出,一个关键问题是去承认 “DH中地方特殊性和全球一致性并存”。她在《新数字世界》(New Digital Worlds)中进一步探讨了这个问题。在该书中,她用后殖民视角来审视代码研究、界面设计和内容管理,并呼吁我们抵制数字普遍主义的逻辑和动力。普里尼・赛索(Priani Saisó)运用了这一批判,来捍卫区域认识论(他以拉美为例)在DH实践中的重要性。这种以群体为基础的实践,在本土化的人机交互(HCI)之中有重要表现。埃斯科瓦尔・瓦雷拉(Escobar Varela)认为,我们需要采取一种“主位”(emic)方法,通过用户界面(UI)在DH研究中构建用户体验(UX),这些用户界面嵌入了特定文化群体的修辞、姿态和视觉惯例,特别是在文化主体缺乏代表的情况下。“我们能为跨文化交流设计主位界面吗?”——埃斯科瓦尔・瓦雷拉提出的这个问题十分引人注目。
在分析(和影响)新技术的地理语言支持能力和为多语言(和翻译)内容设计计算工具方面,数字人文都可以发挥重要作用。明确DH对这些问题的具体回应是有必要的,所以我们与娜奥米・韦尔斯一起组织了“消解数字单语主义”研讨会(Disrupting Digital Monolingualism,2020年6月)。关于这次活动,将单独另作报告。我们相信数字多语言性将是DH领域在未来几年的一大关键挑战。
本文由数字人文研究(ID:rucdh2019)授权转载。
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。
– END –
转载来源:数字人文研究
转载编辑:杨淞幄