AWS 推出用于多模态文档翻译的新数据集

分享

其他推荐

翻译和人工智能

人工智能在翻译中的作用         人工智能(AI)已成为翻译的重要组成部分。了解人工智能和机器翻译(MT

阅读更多»

在 2024 年 6 月 12 日的一篇 论文中来自 AWS人工智能实验室、马里兰大学和奈良科学技术研究所共同展示了 M3T,这是一个多模式基准数据集,旨在评估机器翻译的能力。 机器翻译 (MT) 系统翻译视觉丰富的半结构化文档。

研究人员解释说,大多数 文档级 MT 系统 文档级 MT 系统只关注句子层面的文本内容,而忽略了段落、标题和整体文档结构等视觉线索,而这些线索对于理解文本不同部分之间的上下文和关系非常重要。 “他们说:”视觉线索是一组重要但被忽视的特征,它们可以提供上下文线索。

他们还指出,大多数 MT MT 系统假定能从文档中完美提取文本。 然而,使用 光学字符识别 (OCR) 往往会导致错误,尤其是在具有复杂布局(如多列、表格)的文档中。

这个新的数据集包含了复杂的文本布局,解决了这些缺陷,而这种布局在 PDF 等真实文档中非常典型。 研究人员强调说:”M3T 主要针对 PDF 文档,这是一种常用格式,对现代语言模型提出了一些挑战。

缩小评估差距

随着多模态 MT 模型的最新进展,这些模型将视觉编码器与 大语言模型 (LLMs),开发能够处理视觉和文本复杂任务(如翻译)的多模态 MT 模型指日可待。

在考虑长距离上下文线索的具有挑战性的文档理解任务中对模型性能进行基准测试变得越来越重要。

“该数据集旨在弥补文档级 NMT 研究人员说:”我们认识到丰富的文本布局在实际应用中带来的挑战。

独特的数据集

该数据集包含 8 种语言的 20 多万个文档级图像-文本对,是迄今为止最大的多模态机器翻译数据集。 这些图像-文本对来自各种在线资源,包括新闻文章、博客文章和教育材料,涵盖各种领域和复杂的布局。

注释员在文档中标注了版式信息。 然后,对文档进行机器翻译,并由专业翻译人员对文档进行后期编辑,确保考虑到文档的上下文。

“他们说:”我们的数据集的独特之处在于,它侧重于文档层面的机器翻译,并对模型的翻译能力和使用视觉特征作为上下文线索的能力进行测试。

研究人员在 M3T 数据集上评估了几种现有的多模态 MT 模型,如 LLaVa。 他们发现,加入视觉特征可以提高 OCR的文本。 然而,这些改进并不显著,表明这些模型难以有效利用视觉信息,尤其是在文档层面。

研究人员认为,未来的研究人员应探索和开发更有效的方法,以充分利用视觉元素提供的语境信息,并得出结论:”多模态文档翻译仍是未来研究的一个领域”。

数据集和脚本可在 GitHub.

(机器翻译,轻度以后编辑,仅供参考)

原文链接

编辑:刘煜珍

Was it helpful ?

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注