?作为小孩子,在我们会走路或说话之前,我们就在听。???????? 我们听到了其他人发出的声音和发声。???????? 我们把这些声音的组合与意义联系起来,比如“母亲”和“门”,并学习阅读我们周围人的面部表情,以加深我们对这些单词的理解。???????? 然后我们去学校,开始与其他类型的语言呈现互动——比如卡通、电视、平板电脑和手机,以及书籍,在这个过程中我们对语言的理解更完善了。???????
?对于大多数人来说,学习语言是一个自然的过程,但对计算机来说却非常困难。???????? 语言是复杂的数据类型,有灵活的形式规则和许多例外用法。当这些特殊用法缺乏上下文和明显意图时,会非常难以理解。???????? 想象一个孩子走进你的房间,说“门!”。???????? 在没有上下文(例如,他们为什么这么说????????? 门开着吗?)和意图(他们要我关吗?),我们几乎不知道以哪种恰当的方式回应。???????
难怪需要几十年训练AI“理解”语言,这是缓慢而乏味的工作。???????? 随着机器的学习能力越来越强,我们改善自然语言处理(NLP)的能力也在变强。??????
?人工智能(AI)和自然语言处理技术在变化和发展,以不同的方式应用在生活里,使世界变得更美好。???????
?什么是NLP和LLM????????
?NLP或自然语言处理是人工智能的一个子领域,专注于如何使计算机理解和解释人类语言。???????? 它包括将语言分解成其组成部分,如单词和句子,并分析它们以提取意义。???????? NLP可以用语音或文本来完成,这取决于软件。???????? NLP 的最初尝试始于 50 多年前,始于语言学领域。???????? 如今,NLP技术最常见的例子就在你的钱包或口袋里。???????? 家里或智能手机上的智能助手使用NLP和AI,为智能搜索提供语音驱动的界面。???????
另一方面,LLM或大型语言模型是经过大量数据训练的先进 AI 模型,能够生成类似人类的语言。???????? 这些模型可用于执行各种任务,包括语言翻译、内容创建和文本摘要。???????? 当与NLP技术相结合时,大语言模型(LLMs)可以实现更高级的语言处理能力,例如情感分析和命名实体识别。
???????下次你呼唤Alexa、Siri、Google、Bixby或任何其他虚拟助手时,要知道,你使用的是一个历经数十年制作的技术,如果没有先进的AI,这一切都不可能实现。???????
?NLP、LLMs和AI项目正在让世界变得更美好???????
?起初,NLP和语言学一样,是一种深入理解语言的方式。???????? 随着该领域的发展和人工智能技术的进步,NLP扩展到许多不同的行业,使世界变得更好、更高效。???????
?随着人工智能在数据处理方面的改进,并具备了大量计算的能力,NLP 和 AI 应用的范围将继续扩大。???????? 而且,当与数据存储、转换和标记等技术结合得当时,会让许多人受益。
说到LLMs,它们是NLP领域的重大进展,能进行比以往任何时候更准确、更复杂的语言处理。???????? LLMs在各种行业的应用有潜力使世界变得更美好、更高效。???????? 例如,在医疗保健领域,LLMs可以帮助分析大量患者数据,使医生能够做出更快、更准确的诊断并开发更有效的治疗方法。???????? 在金融行业,LLMs可以分析金融数据和市场趋势,从而做出更好的投资决策,最终实现更稳定的经济。???????? 此外,LLMs可用于改善与非母语人士和残疾人的沟通,创造一个更具包容性的社会。???????? 随着NLP和LLM技术的不断发展,我们可以期待在未来看到更多令人兴奋和有影响力的应用。???????
?AI和NLP在医疗保健领域的应用???????
?凭借大量未数字化的数据和手写笔记,NLP用例在医疗保健领域迅速增长。???????? NLP不仅被用于改善医疗保健,还致力于降低成本。???????? 借助人工智能和自动化,NLP 可用于执行重复性工作,而人类能回归到相互照顾的工作中。???????
大多数健康数据都是文本形式,存在于医生笔记、临床试验报告和患者病历中。???????? 目前,NLP 用于加速数字化纸质医疗记录的过程,将使患者和其他医生共享这些记录变得更快、更全面。???????
一旦记录被数字化,诸如亚马逊医疗理解(Amazon Comprehend Medica) 这样的工具来解读记录,并寻找模式以改善诊断。???????? NLP 使通过用数字化健康记录来识别和预测疾病成为可能。这能带来更早、更准确的诊断。???????? 这可以导致更早和更准确的诊断。???????
亚马逊医疗理解(Amazon Comprehend Medica)真正的亮点在于提取和组织数据的能力。???????? 自动化的、基于规则的数据组织不起作用,因为它不理解上下文,这使得数据结构化不够严谨且不可用。???????? 使用亚马逊医疗理解,提取的数据可以与医疗本体(抽象知识结构)进行比较,以理解和建立提取的医疗信息中得出的关系,从而为患者提供更好、更快的疾病诊断。???????
?NLP和AI被用于改善医疗保健的另一个例子是温特莱特实验室(Winterlight Labs),他们发明了一种可以通过语音监测认知障碍的工具。???????? 他们的工具被用于快速、客观地分析语音,以便检测痴呆和精神疾病。???????
?NLP也被用于使用Woebot来治疗焦虑和其他精神健康障碍。Woebot是一种由斯坦福大学开发的聊天机器人治疗师。???????? Woebot从其他聊天机器人不同之处是,它能够与人类形成治疗纽带,使认知和行为改变成为可能。???????
随着医疗费用的增长和对精神卫生保健的需求增加,NLP和AI工具因其高效、有效和降低成本的能力而备受青睐。???????
提高信息共享并减缓虚假新闻的传播???????
?过去几年,特别是在疫情期间,主要的问题之一是传播虚假信息和煽动性信息。???????? 对偏见和真相的担忧引发出深刻的分歧。???????? 为了能够识别假新闻,麻省理工学院NLP小组开发了NLP软件,它可以检查和确定新闻来源是否准确可信,或者是否带有政治偏见。???????? 随着时间的推移,本集团致力于改进软件,消除数据分析中的偏差。???????
虽然减缓假新闻的传播旨在提高可用信息的质量,但数据科学家也发现,缺乏信息可能是有害的。???????? 为改善共享数据,我们与无国界翻译组织、卡内基梅隆大学、约翰霍普金斯大学、大型科技公司和语言服务公司寻求方法,解决低资源语言信息缺乏的问题。???????? 该组织通过用NLP和AI工具,将高资源语言的重要热点话题翻译分享成低资源语言。???????
?人工智能驱动的移动设备预测文本???????
?当谈到改善人们的日常生活时,NLP工具已经开始发挥功能了。???????? 你可以在智能手机、电子邮件客户端和智能助手中看到 NLP 和 AI 的合作。???????
预测文本、自动更正和自动完成都使用NLP技术来提高搜索效率和方便书面工作。???????? 这些小的改进可以使人们的日常工作更高效。???????? 一个构建良好的自动完成功能应能从每一次交互中学习,并随着时间的推移而变得更完善。???????
在后端,搜索引擎使用NLP将正确的结果返回给搜索者。???????? 通过对意图和推断的理解,搜索不再是字面上的和基于规则的含义。???????? 例如,您现在输入一个航班号,获得的信息不单是哪家航空公司承载该航班的结果,您将获得该航班的当前状态和到达或离开信息。如果您的搜索引擎提供商,也是您确认机票的电子邮件提供商,您将看到您真实的、即将到来的航班信息。???????
?通过情感分析提升客户服务???????
?如果你最近访问了一家大公司的网站,并被一个聊天机器人问候,那么你已经与NLP和AI客户服务技术互动过了。???????? 这些聊天机器人使用 NLP 和算法来理解客户问题,并实时做出适当的回应。???????
?NLP的最新进展是能实现情感分析。???????? 早期的 NLP 技术只能理解文字,而不能理解背后的情感。???????? 情感分析让技术能够理解我们话语背后的情感。???????? 通过使用情感分析,组织可以顺利地与客户互动,并在社交媒体上预防发展成更大的问题。???????
公司正在用NLP软件在社交媒体和客户服务电话中,以更好地了解客户情绪,并训练他们的软件做同样的事情。???????? 每当你听到“此通话可能会被记录用于培训目的”时,这可能意味着你的通话正在通过 NLP 软件进行过滤,以便在未来提高客户服务质量。
?????? NLP和情感分析也被用于新的 Google Assistant 技术中,该技术可以为用户打电话和预约。???????
?人工智能驱动的翻译和手语转文本???????
?10年前,如果你做外语作业时需要帮助,你可以问谷歌翻译,但这样做有风险。???????? 即使在几年前,在线翻译器也不够强大,无法处理口语化表达或语法。???????? 相反,他们会给你一个直译,往往使句子难以理解。???????
随着自然语言处理技术的进步,在线翻译器现在可以更准确地翻译语言,并使用正确的语法。???????? 许多在线工具现在也能识别正在使用的语言,并自动将该语言进行翻译。???????? 如果你通过谷歌访问另一种语言的网站,你可以实时看到这一点。???????
其他翻译工具已经使用NLP来推进了手语翻译技术。???????? SignAll帮助失聪或听力困难的人与不懂手语的人交流。???????? 这项技术使用摄像机来观察和解释手语,并将其翻译成书面文字。???????? 这项技术在虚拟现实技术中也将有所应用,因为理解特定的、微小的手部动作一直是一个重大挑战。???????
?NLP不仅被用来使说两种不同语言的人之间的翻译更容易,它还被用来维护和振兴语言。???????? 微软最近在 Microsoft Translate 中增加了加拿大土著语言因纽特语的文本翻译,Appen为这个项目贡献了训练数据。???????? 目前加拿大约有40,000名因纽特人说因纽特语。???????? 纽特语在工作和学校的日常电脑使用中得到广泛得使用,这种发展支持了这种语言的持续发展。???????
?NLP与AI数据分析???????
?多年来,NLP技术的一个主要制约因素就是语言极其复杂。???????? 相同拼写的单词有不同的含义,不同发音的单词拥有相同的拼写,而且单词可以通过讽刺创造性地用于表达多种不同的情感含义。???????? 这是一个巨大的挑战!
???????随着NLP与改进的数据分析和机器学习技术相结合,该技术在理解交流内容方面变得越来越好。???????? 通过数据标记和分析,NLP技术正在改进,并使世界变得更美好。???????
然而,如果没有高质量的标注训练数据,NLP就无法继续改进。???????? 在Appen,我们建议使用智能标签技术例如预标记、速度标记和智能验证器,以使NLP数据更高效、更有用。???????
使用高质量的标记数据,NLP和AI公司正在合作,通过预测文本和智能助手使世界成为一个更高效的地方。???????? 他们还通过改进的客户服务、更好的翻译服务和更优质的医疗保健,使世界变得更容易生活和出行。???????
?来自朱迪思·毕晓普博士(高级解决方案与高级研究主管)的专家见解???????
?为了让NLP技术取得长期成功,无论是在在商业、金融、医学或任何其他领域,它必须对每个用户都同样有效,而不延续偏差模式。???????? 客户总是问我们,‘我们如何确保我们的训练数据反映客户互动的多样性?’???????
在NLP的背景下,这种多样性存在于我们说话和写作的所有不同方式中。???????? 然而,语言多样性不同于传统的人口统计学;你可以在训练数据中涵盖不同的年龄组、地区和性别,但可能仍然无法充分考虑人们真实交流的各种方式。???????? 理解语言在现实世界中的所有变化方式,确保我们不会浪费时间和金钱收集错误的数据 —— 或者更糟糕的是,创建对某些客户群体效果不佳的系统。???????
要回答客户的问题,我们可以做三件事。???????
-
?让语言学家共同设计和指导数据收集和标注工作。???????? 语言学家了解现实世界的语言变化和语言行为,并确保NLP训练数据真正符合目的。???????? 如果没有专家的指导,数据收集指南可能会无意中影响数据的变化。???????? 一些简单的要求,如在文本数据收集中要求标点符号,可能会使收集的数据偏向于更正式的写作 —— 这可能不代表用户在最终的 NLP 应用中实际输入的非正式文本,比如聊天机器人。???????
-
?由与数据多样性相匹配的多样化人员进行数据标注。???????? 越来越多的证据表明,数据注释——如图像上的标签,以及语音转录和翻译——与数据本身一样,可以引发偏差。???????? 我们通过经验、态度和感知来过滤世界,包括语言。???????? 如果熟悉一个地区或方言单词,我更有可能正确地转录、标记或翻译它。???????
-
?与多元化的员工合作。???????? 多样化的认识与理解方式可以帮助我们很好的认识数据偏差,以及在收集和标记训练数据时如何避免数据偏差。???????? 最近,有很多关于NLP中性别偏见的讨论,研究表明,在训练数据集和相关应用中,对女性性别术语的负面偏差仍然存在。???????? 与性别多元化的同事合作促使自身考虑 NLP 应用如何处理性别多元化身份,包括使用单数代词“他们”。???????? 大多数NLP模型依赖于二元或三元性别标签(男性/女性/其他),但通过与多元化团队合作,我们可以识别潜在的问题并采取积极措施,使NLP更具包容性。
(机器翻译,轻度译后编辑,仅供参考)
编辑:王隽雅