本期作者:
李俊豪(北京大学世界传记研究中心博士生,中国人民大学数字人文研究院学生研究员)
数字时代日记研究现状初探 日记是深入人之思想、回到历史现场的绝佳资料。在数字技术发展方兴未艾的今天,数字人文方法已经广泛应用到了日记研究之中。当今运用数字技术进行的日记研究主要可以分为两类:第一类是对日记进行数字化的项目,即将传统的纸质文献变成可供研究的电子数据的项目;第二类是运用数字思维、技术和工具进行的日记研究,即使用数字人文方法研究日记的项目。亨德森(Desirée Henderson)的《数字化日记档案》 (“Digitized Diary Archives”)和格伦·霍格瑞夫(Glenn Houtgraaf)等人的《公务员的创造力:显著的刺激因素和抑制因素——数字日记的纵向定性研究》(“Public Servants’ Creativity: Salient Stimulators and Inhibitors a Longitudinal Qualitative Digital Diary Study”)分别为探索此两类日记研究的典型代表。故本文将以这两篇论文为基础,初步总结数字时代日记研究当下的特点和问题。 一、 纸质日记的数字化:现状与问题 长久以来,作为重要史料的日记都是历史学和文学研究的重点对象。再加上传统的日记多为手写在纸张等物质材料上的记录,具有文物价值,这就让日记的修复、保存和数字化成了学界的热点。目前,世界范围内的日记数字化建设已颇具规模,日记数据库的构建也已初步展开,较有代表性的项目如美国的“国家手稿目录汇编(National Union Catalog of Manuscript Collections)”、日本的“小城藩日记数据库”和“近代日本日记数据库”,以及中国的“近现代日记全文检索数据库”等。总而观之,这些数据库项目的主要工作都是将纸版日记的文字内容转录成为可供检索的标准数字形式,并根据日记的作者、生活年代等进行了初步分类整理。然而从整体而言,现在日记的数字化仅停留在使用以OCR等为代表的技术进行文字识别的阶段,数据的智慧化程度较低,对日记文献资料的整理和数字化处理仍处初级水平。
亨德森的《数字化日记档案》一文全面介绍了当下数字化日记的发展现状。他指出,“数字化的日记——如所有的数字档案一样——都超越了自己的局限”,让日记在更广阔的空间传播,并“将借此从逻辑和理论上影响未来的日记研究”。亨德森发现,当今日记的数字化中主要存在两个问题。首先是伊恩·米利根(Ian Milligan)提到的“虚幻秩序” (illusionary order)问题,即线上数据库和搜索引擎虽然看上去是完整且全面的,但其中却常有严重错误。日记在数字化的过程中,不管是在选本、机器转录等环节,还是在审校、标注等流程中都很容易出现各类错误。难怪詹姆斯·马塞尔(James Mussell)会说:“每个数字化项目都是编辑项目”。虽然这些数字化日记中的内容性错误只是数字化过程中的常见问题,属于难以避免的“误差”,但对于数据库的使用者和日记研究者而言,却可能带来“失之毫厘,谬以千里”的结果。第二,日记的数字化在方便内容检索的同时存在着许多问题。与传统日记相比,数字日记最突出特点和优势就是可以对日记的内容进行检索。然而,由于技术所限,不管是OCR转写还是TEI技术都目前都只能关注到文字部分。如此一来,“日记原本的纸张大小、行状、颜色、设计、组织、排版、图像、标注、手写、密码、插图”等元素都被忽略了,这使得日记丧失了其原本的“物质性” (the material characteristics of the text)。此外,由于现在大多数数据库的是由各个收藏机构自行独立构建,建构的标准、收录的信息等没有统一的标准,且数据库之间没有关联,这导致了检索的不便和研究效率的低下。
针对以上问题,亨德森提出了在对日记进行数字化、数据化处理的过程中要尽量还原其物质性原貌的原则。他认为,由于版本会对研究结果造成很大的影响,故而在进行日记研究时要特别标注自己的研究对象是纸版的日记还是电子版的日记,并在日记数字化的过程中注意链接相关信息,发挥数字人文跨学科的优势,综合内容与技术等多方力量共同构建数字化平台。亨德森相信:
数字化技术有潜力使日记成为人文学科研究的核心,而不是让日记仅停留在历史和文学的边缘。这也意味着,对日记的研究可能会越来越跨越历史、地理、国家和语言等界限,从而产生关于该体裁及其全球影响的新见解。这些新资源和方法必然会催生出解读日记的新方式,在日记研究领域开启创新时代。
二、以数字方法和工具开展日记研究
根据书写者的意愿来分,日记可以分为主动书写的日记和被动书写的日记两类。被动书写的日记具有很突出的问题导向性,能够很好地反映一个特定的群体在某段时间内对某些问题的看法和变化,是收集信息和记录历史的绝佳资料,现已被广泛应用到医学人文以及社会学等研究中。在众多被动书写数字日记的研究中,拉登堡大学的霍格瑞夫等人所做的《公务员的创造力:显著的刺激因素和抑制因素——数字日记的纵向定性研究》十分具有代表性,充分显示了数字方法在日记研究中潜力。
长期、定性的日记设计提供了在较长时间内从微观角度收集大量数据,记录复杂过程,获取开放、准确且深入数据的独特机会。日记研究为数据的数量和质量提供了独特的平衡:与采访和民族志等定性方法相比,它可以实现相对较大的样本量;而与调查和实验等定量方法相比,它能提供更详细的数据。而数字技术让此类日记的收集和研究如虎添翼。霍格瑞夫等人选取了荷兰4个不同的政府机构中的142人进行了日记采集,使用Kruyen公司研发的DearScholar手机日记软件让被试者记录日记并进行收集。他们预设了“记录过去两周内自己与工作相关的新颖且有用的观点”和“记录过去两周内同事跟他们分享的与工作相关的新颖且有用的观点”两个问题让被试者回答,得到了563份被试者的想法记录和528份他们同事的想法记录。这种独特的微观层面视角可以充分探索公务员在日常工作中对刺激和抑制创造力的体验。并且即时性的日记记录不会干扰环境,从而减少了与回忆、社会期望和干扰环境产生的相关偏见。如此得到的日记数据可以定期按照预定时间间隔进行体验抽样,也可以在每次发生事件时进行事件抽样,从而实现灵活和最佳的日记数据收集。
在日记处理中,霍格瑞夫等人使用了Atlas.ti软件对样本进行了分析,并以“新兴主题模板分析” (emergent theme analysis)方法为指导对被试公务员创造力受到刺激或抑制的文本元素进行编码。新兴主题分析是对大量定性数据进行归纳和迭代的提取过程,旨在理解数据,并将其简化为概括特定现象的相关文本片段。这些被定义和分类为特定主题文本片段会提供与研究问题相关的信息,本文的研究对象就是以创造力主题的代码簇。通过捕捉、分析日记文本中新出现的代码簇并结合聚类分析,霍格瑞夫等人发现公务员的创造力受到对想法的现实评估结果、官僚主义程度、工作需求是否平衡以及社交联系存在与否这四个显著因素的影响。这些因素表明公共部门的环境可能会削弱公务员的创造力,此结果为从业人员在提升组织内创造力时提供了有价值的见解。
从霍格瑞夫等人的研究可以看出,数字日记已经成为极佳的研究工具:首先,数字日记无需依赖被调查者的回忆,可以更准确地记录日常经历和感受;其次,收集对象可以涵盖更多人群、更多背景的被调查者,从而获得更广泛的研究样本,揭示更多样化的经验和观点;第三,日记收集还可以跨越较长的时间段进行,借此观察和分析变化和发展的趋势。对这些数字日记,可以通过移动应用软件或在线平台收集,相较于传统的纸质日记,具有收集到的数据量更大、更全面的优势。而在具体的日记文本分析方面,数字人文方法的作用与处理其他文类的文本时基本相同。它在引入统计学方法与计算思维的同时,为以远读方法处理大规模文本提供了方法指导和技术支持。
在研究环境普遍数字化的今天,数字人文方法的介入是日记研究传统研究范式的突破,亦为大势所趋。然而从数字人文方法在具体日记文本分析中的应用来看,主题分析、文本挖掘、词频统计、情感分析等仍为主流,整体呈现出程式化高、创新性低的特征。这导致数字人文在引入日记研究后并未给其带来方法论上的根本转换,在文本分析的过程中也没有体现出日记作为独特文类的特点。所以,在今后使用数字人文方法进行的日记研究中,寻找新的分析方法、引入数字思维、解决当下日记数字化中的检索和内容误差问题应为发展的主流。
参考文献:
Batsheva Ben-amos and Dan Ben-amos ed., The Diary: The Epic of Everyday Life, Indiana: Indiana University Press, 2020.
C. Cassell & G. Symon ed., Essential Guide to Qualitative Methods in Organizational Research, London: Sage, 2004.
Ian Milligan, “Illusionary Order: Online Databases, Optical Character Recognition, and Canadian History, 1997-2010,” Canadian Historical Review 94, no. 4 (2013): 542.
James Mussel, The Nineteenth-Century Press in the Digital Age, New York: Palgrave Macmillan. 2012.
Houtgraaf, Glenn, Peter Kruyen, and Sandra van Thiel. “Public Servants’ Creativity: Salient Stimulators and Inhibitors a Longitudinal Qualitative Digital Diary Study.” Public Management Review, vol. ahead-of-print, no. ahead-of-print, 2022, pp. 1-22.
排版 王若妍
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。
– END –
转载来源:数字人文研究
转载编辑:邢薇