DeepMind 推出 JEST 算法:让 AI 模型训练更快、更便宜、更环保

分享

其他推荐

生成式人工智能正在取得令人难以置信的进步,改变着医学、教育、金融、艺术、体育等领域。这一进步主要源于人工智能从更大的数据集中学习并构建具有数十亿个参数的更复杂模型的能力的提高。尽管这些进步推动了重大科学发现、创造了新的商业机会并促进了工业增长,但它们的成本很高,尤其是考虑到训练这些大规模模型对财务和环境的影响。学习算法需要强大的计算能力来训练具有大数据集的生成式人工智能模型,这会导致高能耗和显著的碳足迹。

虽然之前为了让生成式人工智能可持续发展而做出的努力主要集中在提高人工智能训练的硬件效率和开发具有更少参数的小型模型上,但 Google DeepMind 采取了一种创新方法,旨在提高生成式人工智能训练算法的效率。他们开创了一种新算法JEST(联合示例选择),其运行速度比现有技术快 13 倍,能效比现有技术高 10 倍。

在本文中,我们探讨了 AI 训练面临的挑战以及 JEST 如何解决这些问题。此外,我们还考虑了 JEST 算法的更广泛影响和未来研究方向,并设想了其潜在影响,而不仅仅是提高 AI 训练的速度、成本效益和环境友好性。

人工智能训练的挑战:高成本和环境影响

由于成本高昂且对环境影响巨大,训练生成式人工智能模型面临着巨大的挑战。

  • 财务成本:训练生成式 AI 模型是一项成本高昂的工作。最近的估计表明,训练一个大型模型(例如 OpenAI 的 GPT-3,它有 1750 亿个参数)的成本约为460 万美元。据估计,训练 ChatGPT-4 花费了 OpenAI 约1 亿美元。这些费用主要归因于所需的大量计算资源、大量数据处理和长时间的训练时间。
  • 能源消耗:生成式 AI 训练过程极其耗能。训练这些模型需要数千个 GPU,消耗数千兆瓦时的能源,因此整个过程极其耗能。数据中心是 AI 训练的计算基础设施,每年消耗约 200 太瓦时 (TWh) 的电力,约占全球电力需求的 1%。麦肯锡的一份报告预测,美国数据中心的用电量可能从 2017 年的 17 千兆瓦 (GW) 上升到2030 年的 35 千兆瓦,需要相当于九座胡佛水坝的发电量才能满足这一额外需求。
  • 碳足迹:训练生成式 AI 模型的高能耗显著增加了温室气体排放,加剧了气候变化。马萨诸塞大学阿默斯特分校的一项研究发现,训练一个大型 AI 模型可以排放相当于五辆汽车在其使用寿命内的二氧化碳。具体来说,训练一个 AI 模型可以排放超过626,000 磅的二氧化碳,相当于 315 个跨美洲航班的碳足迹。

这些挑战主要源于两个主要原因:对高能耗计算硬件的依赖以及当前训练算法的低效性。尽管人工智能社区在开发节能硬件方面取得了长足进步,但仍需要更加重视创建更智能的算法,以优化数据使用并减少训练时间。谷歌最近推出的 JEST 算法是使训练算法更智能的开创性研究。通过智能地选择重要的数据,JEST 显著提高了人工智能训练的效率,为更可持续、更具成本效益的生成式人工智能模型训练铺平了道路。

理解 JEST 算法

JEST 是一种学习算法,旨在更有效地训练多模态生成式 AI 模型。要了解 JEST 的工作原理,可以将 AI 训练视为解决一个复杂的难题,其中每个部分(数据点)都有助于构建完整的画面(AI 模型)。JEST 就像一位经验丰富的解谜者,使整个过程更加高效。就像解谜者挑选出最重要和最独特的部分一样,JEST 可以从数据集中识别和选择最有价值的数据批次,确保每个批次在 AI 开发中发挥关键作用。

JEST 采用较小的 AI 模型来评估数据批次的质量。然后根据这些批次在模型训练中的有效性对其进行排名。通过这些精心挑选的批次,JEST 策略性地将它们组合起来以训练模型。就像解谜者排列拼图碎片以最大限度地提高效率和连贯性一样,JEST 通过优先考虑和选择信息量最大的批次,显著加快了训练过程。

JEST 方法的一个关键部分是多模态对比学习。该技术专注于学习不同数据类型(如文本和图像)之间的对应关系。JEST 采用基于多模态对比学习的方法来评估多模态数据样本在训练模型中的有效性。除了单个数据样本的有效性之外,JEST 还评估数据样本的集体可学习性,以从较大的“超级批次”中选择一小批数据。此过程有助于 JEST 选择并优先考虑提供挑战和丰富学习机会的批次。

展望未来:JEST 不仅能提供更快、更便宜、更环保的 AI 训练

当我们探索 JEST(联合示例选择)的未来影响时,很明显它的贡献不仅仅是加快 AI 训练、降低成本和促进环境可持续性。在这里,我们深入探讨 JEST 如何继续改进和改变生成式 AI 领域:

  • 增强模型性能和准确性:JEST 创新的数据选择和优先级方法可缩短训练时间并增强模型性能。通过专注于信息量最大的数据批次,JEST 可确保 AI 模型在高质量输入上进行训练,从而提高其准确性和稳健性。这一优势在精度和可靠性至关重要的应用中至关重要,例如医疗诊断、财务预测和自主系统。
  • 识别和减轻数据中的偏见:人工智能容易出现有偏见的数据集,其中某些群体或观点代表性不足或被歪曲。JEST 的数据选择方法涉及评估数据批次的质量和信息量。通过优先考虑多样化和有代表性的数据样本,JEST 可以帮助人工智能系统从更平衡的数据集中学习,从而减少训练数据中的偏见。例如,在医疗保健人工智能应用中,JEST 可以选择包含各种人口统计因素的数据批次,确保针对不同的患者群体训练医疗诊断模型。这种选择降低了可能基于种族、性别或社会经济地位对某些群体产生不成比例影响的偏见风险。
  • 促进创新和研究:通过大幅减少 AI 模型训练所需的计算资源和时间,JEST 降低了研究人员和创新者的准入门槛。这种可访问性促进了更加活跃的 AI 开发生态系统,小型团队和组织可以试验和部署先进的 AI 解决方案。此外,JEST 提供的效率提升释放了资源,这些资源可以重新用于探索 AI 的新领域,例如新颖的架构、高级算法和符合道德的 AI 框架。
  • 促进包容性人工智能发展:人工智能发展应涉及多种观点和投入,以有效缓解偏见和道德问题。JEST 能够根据数据的信息价值和代表性来选择数据,从而鼓励在数据集管理中采用包容性做法。人工智能开发人员可以通过让多学科团队参与定义数据选择标准来确保 JEST 有效解决偏见和道德问题,包括伦理、社会科学和特定领域的专家。这种协作方法促进了人工智能技术更具包容性和负责任的发展。

底线

DeepMind 引入 JEST 算法代表了生成式 AI 训练的重大飞跃。通过显著加快训练过程并降低能耗,JEST 可大幅节省成本并解决与 AI 开发相关的环境问题。除了这些优势之外,JEST 还有潜力提高模型准确性、减轻数据偏差、促进创新并鼓励包容性 AI 开发。JEST 的持续改进和应用有望重新定义 AI 的未来,朝着更高效、可持续和合乎道德的 AI 解决方案迈进。

(机器翻译,轻度译后编辑,仅供参考。)

编辑:杨馨玥

原文链接

Was it helpful ?

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注