每个人都想做模型工作,而不是数据工作。(1/2)

分享

其他推荐

谷歌研究小组最近发表了一篇题为高风险人工智能中的数据级联的文章。本文的六位作者Nithya Sambasivan、Shivani Kapania、Hannah Highfill、Diana Akrong、Praveen Paritosh和Lora Aroyo揭示了高风险领域中数据被低估的问题,在这些领域中人工智能模型至关重要且应用普遍。他们的结论是,尽管人们对创建MT和ML模型很感兴趣,但对实际的数据工作兴趣较少。

这项研究对TAUS来说特别有趣,因为TAUS是语言数据的一站式商店,提供了远高于现有需求的训练数据集和NLP服务来增强数据。它具体揭示了在语言数据领域,需求很大,但提供服务的意愿很少,TAUS承担了提供高质量数据集和数据服务的使命。随着人们对以数据为中心的人工智能的理解加深,这个话题最近引起了越来越多的关注。

基于此,我们将深入研究这篇论文,并强调关键要点。

什么是数据级联?

根据该研究的实证结果,作者将数据级联定义为“因为数据问题而造成负面下游影响的复合事件,随着时间的推移,这些事件会导致技术债务”。根据这项研究,他们发现92%的人工智能从业者经历了至少一次数据级联。该研究表明,数据级联受到以下因素的影响:“参与人工智能开发的参与者(如开发者、政府等)的活动和互动,以及人工智能系统所在的物理世界和空间(如医院)”。研究人员观察了数据级联的以下方面:

  • 数据不透明度:没有明确的工具、或指标来检测数据级联及其对系统的影响

  • 触发因素:当将传统的人工智能实践应用于高风险领域时

  • 负面影响:技术债务等多重下游影响

  • 多重级联:45.3%的从业人员经历了两次或两次以上级联反应

  • 级联的可避免性:通过早期干预研发进程

    人工智能中的激励模式凸显了参与者对人工智能中无形但困难的数据工作普遍缺乏认识。组织对高性能模型的期望一边很高,一边却没有考虑底层数据质量。TAUS高度重视数据工作,并从一开始就确保数据质量。具体来说,TAUS data services提供定制数据解决方案,通过早期数据干预对数据级联的可避免性产生直接影响。

数据级联根本原因

该研究确定了数据级联的四个根本原因。下面,我们将深入探讨每个根本原因。

与物理世界的脆性相互作用(Physical World Brittleness)高风险领域中的真实世界现象为ML系统崩溃提供了更多的可能,这是由诸如有限的训练数据、不稳定的领域、规则变化和复杂的潜在现象等因素造成的。数据级联通常是硬件漂移(例如,不适当的照明、灰尘、影响模型性能的指纹)、环境漂移(例如,云层隐藏植被)和人类漂移(社会行为变化影响数据的社会现象)的直接结果。

应用领域专业知识不足当监督数据的人工智能从业者没有足够的领域专业知识时,就会触发这种数据级联。由于他们有限的领域专业知识,错误的假设很容易被整合到ML系统中。

相互冲突的奖励制度当从业者、领域专家和现场合作伙伴之间的优先级和激励不一致时,可能会发生数据级联。数据素养培训即使进行了,也往往很差,导致数据质量挑战存在而从业者素质偏低。

不良的跨组织文件编制组织内各个部门之间缺乏高效的文档编制会引发数据级联。由于高风险数据的不稳定性,元数据和模式也在不断变化。如果没有适当的文档编制或领域知识,这将导致关键数据细节的丢失。

(机器翻译,轻度译后编辑,仅供参考)

编辑:胡跃

原文链接

Was it helpful ?