从医疗诊断到规划假期,从应对气候变化到撰写求职信,人工智能的应用正以令人难以置信的速度增长。这些天的头条新闻主要是生成式人工智能,但无论我们谈论的是哪种人工智能模型或使用案例,其成功与否都取决于人工智能的训练效果,而这又依赖于是否有合适的数据用于人工智能训练。
优质的人工智能训练数据——大量的训练数据——是开发人工智能应用程序的关键要素,这些应用程序能够可靠地完成我们希望它们做的事情。因此,让我们来探讨一下什么是人工智能训练数据、如何准备这些数据以及如何在人工智能训练过程中应用这些数据。在其他博客中,我们将探讨一些常见的人工智能训练难题,以及如何确保人工智能训练数据的质量足以满足您的需求。
什么是人工智能训练数据?
人工智能训练数据是一组信息或输入,用于指导人工智能模型做出准确的预测或决策。例如,如果训练一个模型来识别狗的图片,那么它的人工智能训练数据集将由包含狗的图片组成,每张狗的图片都被标记为“狗”。这些数据将作为学习输入输入到人工智能模型中,使其最终能够在其他以前未见过的图片中准确识别出狗(稍后将详细介绍这种学习过程)。
人工智能训练数据可以是由人类活动自然生成并收集用于人工智能训练数据集的数据,也可以是为此目的而制造的数据,即模拟真实世界训练数据的合成数据。当真实世界的数据有限或敏感时,合成训练数据尤其有用。
训练数据格式
根据人工智能模型的目的,其训练数据可以是:
文本数据。从推文和网页到文学作品、学术论文和政府文件,都可以用来指导人工智能模型处理和生成人类语言。
音频数据。包括语音数据。需要对声控人工智能模型或语音转文本应用程序进行训练,以识别并适当回应人类语音,包括处理不同的口音和语音模式,甚至可能需要识别不同的情绪。其他类型的音频,如动物叫声、音乐、交通或其他环境噪音,也将用于训练虚拟助手或环境监测系统等人工智能应用。
图像数据。面部识别、无人驾驶汽车或医学影像分析等计算机视觉应用将使用包含相关数字图像的人工智能训练数据集。
视频数据。与静态图像一样,视频格式也可用于训练面部识别、无人驾驶汽车或监控系统等计算机视觉应用。
传感器数据。来自捕获温度、生物特征或物体加速度等物理信息的设备的信号被称为传感器数据,用于训练无人驾驶汽车、工业自动化和物联网(IoT)设备等用例中的人工智能模型。
有标签与无标签的人工智能训练数据
无论数据格式如何,都可以用有标签或无标签的形式,或两者结合的形式来训练人工智能模型:
标记数据是带有标签的信息,这些标签可作为路标,帮助指导人工智能模型的学习。例如,一张猫的照片可能会被标记为“猫”,从而帮助人工智能模型识别猫的长相。标记数据通常用于某种监督学习的训练中,其中标签为人工智能的学习提供了关键的上下文(稍后详述)。
非标记数据是原始数据——想象一下没有任何标签或上下文的照片或文本数据。它主要用于无监督学习(稍后详述)。
这两种类型的数据通常是构建一个全面的人工智能模型所必需的。
不同阶段的数据
人工智能模型的训练是一个迭代的过程,直到初始训练工作得到验证,模型的性能在未见数据上得到很好的测试,这个过程才算完成。我们可以将初始的人工智能训练数据集与用于在训练过程中评估模型以开发和微调模型的验证数据集(或开发集)区分开来。最后,测试数据集用于评估和“证明”最终模型的性能,所有这些数据都被视为用于人工智能训练的数据。
准备用于人工智能训练的数据
在将数据用于人工智能训练之前,需要对其进行收集和处理,以便用作人工智能训练数据集。这包括数据收集、标注、验证和预处理:
数据收集
人工智能训练的数据收集并不像听起来那么简单,因为你需要大量的数据,而且这些数据需要代表人工智能可能遇到的所有场景。毕竟,如果您的训练图像只包括站立姿势的狗,那么如果您的人工智能无法识别任何坐着、躺着、跑着、跳着或游泳的狗,您也不必感到惊讶。您需要的数据格式将取决于您的人工智能应用目标,如果您无法收集到足够的真实世界数据来涵盖训练、验证和测试,那么合成数据可能是填补这一空白的可行选择。
数据标注(或标记)
人工智能训练通常需要对部分训练数据进行标注或标记(如前所述)。例如,图像的某些部分可能被标注为“狗”、“猫”、“树”、“花”或“果实”,文本元素可能被标注为“人”、“城市”、“国家”或“日期”。标注是一个需要人工判断的劳动密集型过程,对于人工智能的示例学习至关重要(参见下文关于“监督学习”的讨论)。
数据验证
下一步是确保数据符合目的。这就是要确保人工智能训练数据的质量,可能包括自动检查和人工检查,以识别数据中可能影响人工智能性能的错误、无关信息、不一致性和偏见。
数据预处理
在使用数据之前,必须对其进行清理和整理,以优化人工智能训练。这包括应对数据验证过程中发现的问题,例如纠正错误、删除无关数据、解决不一致问题以及处理缺失或不完整数据。预处理还可能涉及数据规范化或标准化,以帮助人工智能模型以一致的方式处理数据,降低偏差风险并提高性能。例如,您可以对文本数据集进行归一化处理,以确保“苹果”和“香蕉”等单词的出现频率保持一致,确保其中一个单词的出现次数不超过另一个单词出现次数的五次。这有助于模型对它们进行有效比较。同样,对于音频数据集,您可以调整音量大小,以便人工智能在整个过程中遇到相同的音量范围,并能对音频进行一致的分析。或者,对于图像,你可以确保它们都具有相似的亮度和对比度,这样人工智能就能统一处理它们。最后,数据被分为训练数据集、验证数据集和测试数据集,用于训练和评估人工智能模型。
如何训练人工智能?
准备好人工智能训练数据后,就可以开始实际训练了。这包括将训练数据输入到人工智能算法,以便以特定方式从中学习。一般来说,有三种方法可以做到这一点,而且它们通常会被结合使用:
在监督学习中,给人工智能算法提供带标签的数据,而标签就是人工智能必须学会的输出。这类似于师生关系,模型(学生)从提供的示例(老师)中学习。向人工智能模型提供标有“狗”的图像就是利用标注图像数据进行监督学习的一个例子。该模型学习将一系列与狗相关的特征与“狗”这个标签联系起来,从而提高它在看到未标记的狗图像时可靠输出“狗”这个标签的能力。
在无监督学习中,人工智能模型被给予无标签数据,要求它在没有任何帮助的情况下自行找到数据中的模式或结构。这允许更多的探索性学习,尤其是在结果未知或我们希望模型学习更多关于数据底层结构的信息,而这些信息不是显而易见的,或通常不被人类标签捕获时尤其有用。允许模型创建自己的类似数据集群或识别异常值或离群值,可以帮助我们发现隐藏在我们身边的模式。例如,通过无监督学习训练出来的人工智能模型可以识别病人健康数据中的异常模式,这些模式预示着潜在的疾病或健康问题,有助于早期诊断和个性化治疗规划。
在强化学习中,人工智能模型会执行一系列操作,并定期获得奖惩形式的反馈。这有助于模型理解其行为的后果,并随着时间的推移做出更好的决策。强化学习的一个常见例子是,人工智能模型通过多次玩游戏,并根据获胜(奖励)或失败(惩罚)的结果(反馈)调整策略,从而学会如何玩好游戏。随着时间的推移,它就会知道什么有效,什么无效。
评估人工智能模型
评估人工智能的性能,尤其是其将所学知识应用于之前未见场景的能力,是整个人工智能训练过程的重要组成部分。它能让我们了解模型从人工智能训练数据中学习的效果如何,以及它在真实世界中的表现如何。
性能指标
评估人工智能模型性能的方法有很多,但首先需要决定使用什么指标来评估。选择适当的性能指标取决于人工智能的训练目的。例如,要评估电子邮件垃圾邮件过滤等分类任务(人工智能模型将电子邮件分类为垃圾邮件或非垃圾邮件),您可以使用准确度等指标来评估正确分类的电子邮件数量,使用精确度来评估标记为垃圾邮件的电子邮件实际为垃圾邮件的比例,使用召回率来评估正确识别为垃圾邮件的实际垃圾邮件数量,或者使用F1分数(将精确度和召回率合并为一个指标)来评估。
对于回归任务(如预测房价的房地产人工智能模型),您可以使用平均绝对误差 (MAE) 或均方根误差 (RMSE) 来衡量预测价格与实际价格之间的差异。这些指标提供了对模型性能的量化衡量,有助于识别模型的优势领域和需要改进的领域。
交叉验证
评估模型在独立数据集上表现如何的一种常用技术是交叉验证。它包括将人工智能训练数据集分成几组,称为“折”。当数据被划分为k折时,模型随后会被训练k次,每次使用不同的折作为测试集,剩余的折作为训练集。
每次进行交叉验证时,都会计算相关的性能指标(如上所述),以衡量模型在测试集上的表现。每次交叉验证迭代得到的指标通常通过取平均值、中位数或其他汇总统计量等方式进行汇总,以提供模型性能的总体估计值。这样得到的结果是一个全面而准确的指标,表明模型是否稳健,是否能很好地概括未见数据。
过拟合和欠拟合
在人工智能模型评估过程中,检查过拟合和欠拟合非常重要。过拟合是指模型对训练数据学习得过于彻底,以至于难以对新数据泛化。欠拟合是指模型未能捕捉到数据中的基本模式,导致在训练集和测试数据集上都表现不佳。像交叉验证这样的评估技术有助于检测过拟合和欠拟合。如果发现了这两种情况,应在评估阶段加以缓解,以确保模型的可靠性和通用性。
过拟合和欠拟合只是模型评估过程中需要注意的两点,还需要考虑模型的稳健性、可扩展性、可解释性等等。但最后,我想强调一下偏差问题。
偏差
如果不对人工智能模型的潜在偏差进行评估,那么对该模型的评估就是不完整的。出现偏差的原因有多种,包括人工智能训练数据中的偏差或算法本身的偏差。我们将在另一篇关于人工智能训练数据质量的博客中结合实例更深入地讨论训练数据中的偏差问题。
算法本身的偏差往往是无心之失,可能是由于程序员的无意识偏差或算法设计过程中的假设造成的。一个值得注意的例子是,美国一些警察部门使用预测性警务软件来预测犯罪可能发生的地点。该算法是根据历史犯罪数据进行训练的,但在训练过程中,无意识的人为偏见最终导致模型对某些类型的犯罪(如与毒品有关的犯罪)给予了更大的权重。这导致对毒品犯罪高发社区的过度关注,其中很多都是低收入或少数族裔社区。这些结果并不一定表明总体的犯罪率较高,而是反映了软件内置的偏见。
克服人工智能训练挑战
要避免人工智能模型出现偏差,需要付出特别的努力。我们将在另一篇讨论最常见的人工智能训练挑战的博客中进一步阐述这一点,并提供实用建议。但这一切都始于为人工智能训练准备数据。数据是建立人工智能模型的基础,为开发准确、可靠和强大的人工智能提供支持。如需可靠的人工智能训练数据,请立即联系RWS的TrainAI团队。
(机器翻译,轻度译后编辑,仅供参考)
编辑:杜曼曼