在人工智能(AI)时空错乱的怪现象中,人们也许很快就能看到西班牙黄金时代最重要的作家之一洛佩·德·维加(Lope de Vega)的新剧作。而这并不是ChatGPT过度应用的又一个事例——这是剧作家本人写的。
《法国女人劳拉》(La francesa Laura)可能不是维加最伟大的作品之一,但今年早些时候消息传出时,这部作品的发现经过引起了众多关注。人工智能再次成为英雄,将手写文本数字化从而进行文体分析,缓解了难以确定作者身份的难题。
正是READ-COOP SCE的Transkribus算法,帮助并支持Álvaro Cuéllar和Germán Vega对黄金时代的作者身份进行研究。Transkribus是一个先进的文本识别平台,旨在彻底改变查看历史文档的渠道。它正迅速得到一部分图书馆和档案馆的青睐,这些机构想对某些一手资料进行数字化处理,以进行大规模的研究和分析。
使印刷文本具备机器可读性并非首创。几十年来,光学字符识别(OCR)一直在取代手动数据输入,将打印文档转换为可检索、可搜索的格式,便于进行查询和转换。其最初的应用不太涉及解析历史记录,而是关注盲人阅读辅助和自动邮件分类等难题。
如今,这项技术无处不在,为不计其数的业务自动化提供支持,以便更高效地开出停车罚款或拒绝保险索赔。您还可能与OCR有更直接的接触,用它将扫描文档转换为可编辑的格式,或使用Google Lens将某个标志翻译成熟悉的语言。其广泛应用使得文本识别在金融服务、医疗保健和物流等领域发挥至关重要的作用。它甚至可以将扫描文档转换为低资源语言的训练语料库,以帮助解决自然语言处理(NLP)中的数据稀缺问题。
可提升空间
近几十年来,机器学习方法已经看到OCR的进步,超越了基本的模式匹配算法,该算法将扫描的字符图像与内部数据库进行比对,以提取出更精细化的特征,使模型能扩大至涵盖没见过的字体和手写体样式。然而,文本识别这一领域仍在积极开展研究,有相当大的提升空间,特别是涉及到较低资源语言及字母系统、多语言文本和手写文本。
即使对于英文印刷文本,OCR也容易犯一个经典错误,就是混淆小写“l”、大写“I”和数字“1”。常见问题还包括将撇号视为重音符(反之亦然),以及错误分割单词,而它们又会影响后面的任务。为避免人工审核,可以使用具备拼写词典或语言模型功能的纠错技术来改进OCR转录。
虽然纠错可以显著提高文本识别的准确性,但也有其缺点。这一过程可能会与词汇表之外的行话、俚语或命名实体发生冲突,并可能因将原始文件中存在的错误加以规范化而影响转录的忠实性。手写文本的自动标记等应用较为棘手,因为它们需要通过识别纠错获得高精度,同时又要保留相关的拼写错误作为反馈。
手写文本式微?
寻找著名剧作家的新剧作并不是手写识别的唯一好处。手写笔记以不同于打字的方式激活大脑中的记忆和学习中心,并可能会提高记忆力。但打字输入的笔记更易于编辑、存储和搜索。借助先进的手写文本识别,您可以获得两全其美的体验。
日益涌现的产品可以支持这一论述,许多产品使用在线手写识别,通过跟踪触摸屏或数字笔上的笔画信息来识别文本。谷歌Gboard、微软OneNote和与Apple Pencil相结合的苹果Scribble,都可以将一部分文字的手写体转换为文本。
具有讽刺意味的是,虽然计算机越来越擅长识别手写文本,但各个学校正在争论是否要费心教授花体字。天晓得,随着更先进的识别功能以及诱人的涂鸦工具出现,导致手写文本式微的技术可能又会成为其复兴的动力。
特别说明:本文内容选自slator官网,仅供学习交流使用,如有侵权请后台联系小编删除。
– END –
摘译编辑:李春郁
指导老师:刘婷婷
项目统筹:赵伊雯 杨亚江