训练前沿大型多模态模型 (LMM) 需要大规模数据集,其中包含自由形式的图像和文本交错序列。尽管开源 LMM 发展迅速,但开源的大规模多模态交错数据集仍然严重缺乏。这些数据集的重要性怎么强调都不为过,因为它们为创建能够理解和生成不同模态内容的先进人工智能系统奠定了基础。如果没有足够的全面、交错的数据集供应,开发更复杂、更有能力的LMM的潜力就会受到严重阻碍。这些数据集使模型能够从各种输入中学习,使它们在各种应用中更加通用和有效。此外,此类数据集的稀缺性对开源社区构成了挑战,开源社区依靠共享资源来推动创新和协作。
近年来,开源 LMM 取得了长足的进步,但其增长受到大规模交错数据集可用性有限的阻碍。为了克服这一障碍,需要齐心协力地策划、注释和发布更全面的数据集,以支持多模态模型的持续开发和完善。此外,这些数据集的创建和传播涉及克服一些技术和后勤障碍。数据收集必须是广泛的,并能代表部署LMMs的各种情况。注释需要仔细考虑,以确保图像和文本的交错序列以增强模型学习能力的方式对齐。此外,确保数据集是开源的,需要解决与数据隐私和使用权相关的法律和道德考虑。扩大高质量、大规模多模态交错数据集的可用性对于人工智能研究和开发的未来至关重要。通过解决当前的稀缺性问题,人工智能社区可以促进更大的创新和协作,从而创建更强大、更通用的 LMM,能够解决复杂的现实世界问题。
在此基础上,MINT-1T 是迄今为止规模最大、最多样化的多模态交错开源数据集。MINT-1T:比现有的开源数据集大 10 倍,包括 1 万亿个文本标记和 34 亿张图像。MINT-1T 数据集还引入了从未公开的来源,例如 PDF 文件、ArXiv 论文。由于多模态交错数据集不容易扩展,因此 MINT-1T 数据集共享数据管理过程非常重要,这样其他人也可以对此类信息丰富的变体进行实验。MINT-1T数据集证明了其方法;在MINT-1T上训练的LM模型与以前最先进的方尖壳相比具有竞争力(尽管有些不同)。
MINT-1T:具有一万亿个标记的多模态数据集
大型开源预训练数据集对于研究界探索数据工程和训练透明的开源模型至关重要。在文本领域,C4 和 The Pile 等早期作品在使社区能够训练第一组开源大型语言模型(如 GPT-J、GPT-NEO 等)方面发挥了至关重要的作用。这些基础性工作也为数据过滤方法和缩放的后续改进铺平了道路。同样,在图像文本领域,大规模的开源数据集刺激了更好的数据管理方法的创新,例如数据过滤网络和T-MARS。从前沿实验室到训练大型多模态模型 (LMM) 有一个明显的转变,这需要大量的多模态交错数据集,包括图像和文本的自由格式序列。随着前沿模型能力的快速提升,闭源模型和开源模型之间的多模态训练数据出现了明显的差距。当前的开源多模态交错数据集比纯文本数据集更小,多样性更少,主要来自HTML文档,这限制了数据的广度和多样性。这种限制阻碍了强大的开源 LMM 的开发,并在开源和闭源模型的能力之间造成了差异。
为了弥补这一差距,MINT-1T 被创建为迄今为止最大、最多样化的开源多模态交错数据集。MINT-1T 包含总共 1 万亿个文本令牌和 30 亿张图像,这些图像来自 HTML、PDF 和 ArXiv 等不同来源。在 MINT-1T 之前,该领域最大的开源数据集是 OBELICS,其中包括 1150 亿个文本标记和 3.53 亿张图像,全部来自 HTML。
MINT-1T的贡献如下:
- 数据工程:与构建纯文本或图像-文本对数据集相比,扩展这种多模态交错数据是一项更大的工程挑战。处理大得多的文档并保留图像和文本的原始顺序至关重要。
- 多样性:MINT-1T 是多模态交错领域中第一个从 CommonCrawl PDF 和 ArXiv 等来源大规模收集高质量多模态文档的工具。
- 模型实验:实验表明,在 MINT-1T 上训练的 LMM 不仅与在现有最佳开源数据集 OBELIICS 上训练的模型的性能相匹配,而且可能超过这些模型的性能,同时在规模上增加了 10 倍。
MINT-1T:构建数据集
MINT-1T 策划了一个大规模的开源数据集,该数据集利用了更多样化的交错文档来源,例如 PDF 和 ArXiv 论文。本节详细介绍了 MINT-1T 采购多模态文档、过滤低质量内容、删除重复数据以及删除对工作或 NSFW 不安全以及不需要的材料的方法。最终数据集包括 9220 亿 (B) 个 HTML 令牌、106B 个 PDF 令牌和 9B 个 ArXiv 令牌。
采购大量多式联运文件
HTML 管道
MINT-1T 遵循 OBELICS 的方法,通过解析每个 WARC 条目的 DOM 树,从 CommonCrawl WARC 文件中提取交错的多模态文档。虽然 OBELICS 仅处理 2020 年 2 月至 2023 年 2 月的 CommonCrawl 转储文档,但 MINT-1T 已扩展文档池以包括 2017 年 5 月至 2024 年 4 月的 HTML 文档(2018 年 10 月至 2024 年 4 月的完整转储和早年的部分转储)。与 OBELICS 类似,MINT-1T 会过滤掉不包含任何图像、超过 30 张图像或任何 URL 包含不适当子字符串(如徽标、头像、色情和 xxx)的图像。
PDF 管线
MINT-1T 从 2023 年 2 月到 2024 年 4 月的 CommonCrawl WAT 文件中获取 PDF 文档。最初,所有 PDF 链接都是从这些转储中提取的。然后,MINT-1T 尝试使用 PyMuPDF 下载和读取 PDF,丢弃超过 50MB(可能包含大图像)和超过 50 页的 PDF。没有文本的页面将被排除,并为其余页面建立阅读顺序。阅读顺序是通过找到页面上所有文本块的边界框,根据列对块进行聚类,然后从左上角到右下角对它们进行排序来确定的。图像根据它们与同一页面上的文本块的接近程度集成到序列中。
ArXiv 流水线
MINT-1T 使用 TexSoup 从 LaTeX 源代码构建 ArXiv 交错文档,以查找图形标签并将图像与纸质文本交错。对于多文件论文,MINT-1T 会识别主 Tex 文件,并用其文件的内容替换输入标签。LaTeX 代码通过删除导入、参考书目、表格和引文标签进行清理。由于 ArXiv 已经是一个高度策划的数据源,因此无需执行额外的过滤和重复数据删除。
文本质量过滤
MINT-1T 遵循 RefinedWeb、Dolma 和 FineWeb 建立的做法,避免使用基于模型的启发式方法进行文本过滤。最初,使用 Fasttext 的语言识别模型(置信度阈值为 0.65)消除非英语文档。如果 URL 包含 NSFW 子字符串,则还会删除文档,以排除色情内容和不良内容。应用 RefinedWeb 中的文本过滤方法,专门删除具有过多重复 n-gram 的文档或使用 MassiveText 规则识别为低质量的文档。
图像过滤
在整理 PDF 和 HTML 文件后,MINT-1T 尝试下载 HTML 数据集中的所有图像 URL,丢弃不可检索的链接并删除没有有效图像链接的文档。小于 150 像素的图像将被丢弃以避免徽标和图标等嘈杂的图像,大于 20,000 像素的图像也会被删除,因为它们通常对应于偏离主题的图像。对于 HTML 文档,将删除宽高比大于 2 的图像,以过滤掉低质量的图像,例如广告横幅。对于 PDF,阈值调整为 3 个,以保留科学的数字和表格。
安全过滤
- NSFW 图像过滤:MINT-1T 将 NSFW 图像检测器应用于数据集中的所有图像。如果文档包含单个 NSFW 图像,则整个文档将被丢弃。
- 个人身份信息删除:为降低个人数据泄露的风险,文本数据中的电子邮件地址和 IP 地址将被匿名化。电子邮件被替换为“email@example.com”等模板和具有随机生成的非功能性 IP 的 IP。
重复数据删除
MINT-1T 在每个 CommonCrawl 快照和图像重复数据删除中执行段落和文档文本重复数据删除,以删除重复的、无信息的图像,例如图标和徽标。所有重复数据删除步骤都针对每个数据源单独执行。
段落和文档重复数据删除
遵循 Dolma 的方法,MINT-1T 使用 Bloom Filter 进行高效的文本重复数据删除,将误报率设置为 0.01,并对每个文档的 13 克段落(通过双换行符分隔符表示)进行重复数据删除。如果文档中 80% 以上的段落是重复的,则整个文档将被丢弃。
删除常见的样板文本
段落重复数据删除后,MINT-1T 会删除 HTML 文档中常见的简短样板句子,例如“跳到内容”或“博客存档”。这是通过对每个 CommonCrawl 快照的 2% 运行精确的段落重复数据删除来实现的,符合 CCNet 的做法,确保大部分内容删除常见的样板文本。
图像重复数据删除
在每个 CommonCrawl 快照中,MINT-1T 会根据 SHA256 哈希删除频繁出现的图像。按照多模式 C4 做法,仅删除在快照中出现超过 10 次的图像,而不是严格的重复数据删除。与 OBELICS 一致,单个文档中的重复图像将被删除,仅保留第一次出现。
基础设施
在整个数据处理过程中,MINT-1T 平均可以从 190 处理器和 90 处理器节点的混合中访问 2,350 个 CPU 内核。总共使用了大约 420 万个 CPU 小时来构建此数据集。
比较 MINT-1T 与 OBELICS 中的文档组成
在评估交错数据集的组成时,检查了两个关键特征:每个文档的文本标记分布和每个文档的图像数量。在该分析中,从 OBELICS 和 MINT-1T 的每个数据源中随机抽取了 50,000 份文档。GPT-2 的分词器用于计算文本标记的数量。通过排除文本标记和图像数量在 1.5 四分位距之外的文档,可以删除异常值。如下图所示,MINT-1T 的 HTML 子集与 OLELICS 中看到的令牌分布非常一致。然而,平均而言,来自 PDF 和 ArXiv 的文档往往比 HTML 文档更长,这凸显了从不同来源获取数据的好处。图 5 检查了所有文档的图像密度,发现与 HTML 文档相比,PDF 和 ArXiv 文档包含的图像更多,其中 ArXiv 样本的图像密度最高。
不同的数据源如何提高文档的多样性?
将多模态文档库扩展到 HTML 之外的一个重要动机是领域覆盖率的提高。为了量化这种覆盖的多样性和深度,在从 OBELICS 数据集、MINT-1T 的 HTML 子集和 MINT-1T 的 PDF 子集(不包括 ArXiv)抽样的 100,000 个文档上训练了潜在狄利克雷分配 (LDA) 模型,以获得 200 个主题。然后使用 GPT-4 对单词集进行分类,以根据 MMMU 域识别优势领域——例如健康与医学、科学、商业、人文、历史等。该分析揭示了域名分布的独特趋势:
- 方尖雀碑:该数据集显示出“人文和社会科学”的明显集中度。这可能归因于其数据构建过程,该过程涉及过滤掉与维基百科文章不相似的文档,从而可能会改变分发到更普遍的知识和以人文学科为中心的内容。
- MINT-1T 的 HTML 子集:与 OBELICS 相比,MINT-1T 的 HTML 子集并没有强烈偏向于任何特定领域,这表明域表示更广泛、更平衡。
- MINT-1T 的 PDF 子集:MINT-1T 的 PDF 文档中“科学和技术”文档的比例更高。这种趋势可能是由于科学传播的性质造成的,其中PDF是分享详细研究论文和技术报告的首选格式。
MINT-1T:结果和实验
对于所有实验,MINT-1T 在 50% 的图像文本字幕批次和 50% 的多模态交错批次上训练模型。从每个交错文档中抽样最多 2048 个多模态标记,从每个图像文本样本中抽样最多 340 个标记。与 Flamingo 类似,添加了一个“结束”标记来指示相邻图像文本序列的结束。在训练过程中,随机删除 50% 的单图像交错文档,以对多图像文档进行上采样。图像-文本数据集由内部策划的标题数据集的混合组成。该模型对多模态交错序列的推理能力通过其上下文学习能力和多图像推理性能进行评估。
上图说明了 MMMU 中每个域的文档对 OBELICS 和 MINT-1T 子集的百分比。
In-Context Learning:在各种字幕基准(COCO(Karpathy 检验)和 TextCaps(验证)))和视觉问答数据集(VQAv2(验证)、OK-VQA(验证)、TextVQA(验证)和 VizWiz(验证))上,对模型进行四次和八次上下文学习性能评估。演示是从训练集中随机抽样的。分数在多次评估运行中取平均值,并进行随机演示,以考虑对所选提示的敏感性。为每个任务设置不同的提示,以选择性能最佳的任务。
多图像推理:在MMMU(包含单图像和多图像问题)和Mantis-Eval(所有多图像问题)上评估模型,以探索上下文学习评估之外的多图像推理能力。
HTML 文档培训
最初,MINT-1T 的 HTML 部分与 OBELICS 进行了比较,因为 OBELICS 是之前领先的交错数据集,也是从 HTML 文档中精选出来的。在 MINT-1T 和 OBELICS 的 HTML 部分上训练了两个模型,总共有 10B 个多模态标记。对他们的情境学习表现进行评估。下表显示了在常见基准测试下的 4 次和 8 次性能;在 MINT-1T HTML 文档上训练的模型在 VQA 任务上的表现优于 OBELICS,但在字幕基准上表现更差。平均而言,OBELICS 的性能略好于 MINT-1T (HTML)。
添加 PDF 和 ArXiv 文档
随后,在 MINT-1T 的完整数据源上进行训练,混合了 HTML、PDF 和 ArXiv 文档。交错文档的采样率为50%来自HTML,45%来自PDF,5%来自ArXiv。该模型针对总共 10B 个多模态代币进行了训练。如上表所示,在完整的 MINT-1T 数据混合上训练的模型在大多数上下文学习基准上优于 OBELICS 和 MINT-1T (HTML)。在更复杂的多模态推理基准测试中,MINT-1T 模型在 MMMU 上优于 OBELICS,但在 Mantis-Eval 上表现较差。
细粒度趋势
情境学习性能如何与演示进行缩放?
当提示一到八个演示时,将评估上下文学习性能。对于每个评估基准,每次注射计数运行一次试验。如下图所示,在所有镜头中,在 MINT-1T 上训练的模型都优于在 MINT-1T 和 OBELICS 的 HTML 子集上训练的模型。MINT-1T(HTML)模型的性能略差于方尖瓣。
字幕和视觉问答任务的表现
下图显示了字幕和视觉问答 (VQA) 基准测试的平均上下文学习性能。OBELICS 在四次字幕基准测试中的表现优于所有 MINT-1T 变体,而在八次字幕上与 MINT-1T 相比,其性能略差。然而,MINT-1T 在 VQA 基准测试上的表现明显优于两个基线。MINT-1T (HTML) 在 VQA 任务上也优于 OBELICS。
不同域的性能
在 MINT-1T 中包含多种域旨在提高模型泛化。该图前面的图细分了每个域的 MMMU 性能。除业务领域外,MINT-1T 的性能优于 OBELICS 和 MINT-1T (HTML)。MINT-1T 在科学和技术领域的性能提升归因于这些领域在 ArXiv 和 PDF 文档中的普遍存在。
最后的思考
在本文中,我们讨论了 MINT-1T,这是迄今为止最大、最多样化的多模态交错开源数据集。MINT-1T:比现有的开源数据集大 10 倍,包括 1 万亿个文本标记和 34 亿张图像。MINT-1T 数据集还引入了从未公开的来源,例如 PDF 文件、ArXiv 论文。由于多模态交错数据集不容易扩展,因此 MINT-1T 数据集共享数据管理过程非常重要,这样其他人也可以对此类信息丰富的变体进行实验。MINT-1T数据集证明了其方法;在MINT-1T上训练的LM模型与以前最先进的方尖壳相比具有竞争力(尽管有些不同)。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:杨馨玥