领域适应可分为三种类型–有监督、半监督和无监督,以及三种方法–以模型为中心、以数据为中心或混合方法。
目前仍然缺乏大量所需的标注数据,因而无法为对数据要求极高的神经模型提供数据支持,在某些领域和语言中,甚至连无标注数据也十分匮乏。此外,不同领域之间的差异也使得在某一领域的数据上训练出来的机器学习模型很难适应不同领域的数据。这些因素加在一起,大大降低了许多 自然语言处理(NLP) 模型的可移植性。为了应对这一挑战,人们提出了各种领域适应的方法,并将其应用于许多自然语言处理应用中。
领域适应是迁移学习的一个分支学科,处理的是在与源分布不同(但相关)的目标分布背景下使用在源分布上训练的统计或神经模型的情况。出现这种情况时,我们通常会说是领域转移。
从技术上讲,领域转移违反了(监督式)机器学习的一般原则,即训练数据集应取自相同的分布,如此一来,经过训练的分类器将被用于对以前未见过的数据实例进行预测。简单来说,这意味着训练集和测试集必须足够相似。
例如,如果一个人的目标是使用 机器学习(ML) 算法预测推文的情感,那么首先就要求该算法是在推文上训练出来的,而不是其他类型的文本,如新闻文章或电影评论。在违反这一原则的情况下,学习算法的性能预计会大幅下降,因为它们不再能够超越训练数据进行泛化。
值得注意的是,”领域 “一词在 NLP 界的定义相当宽泛。大多数情况下,它指的是某种连贯的文本集合,例如可以根据主题、文体、体裁或语域归类的文本。在本文中,我们不打算对 “域名 “一词作进一步的定义,而是以现有的、宽松的定义为基础。此外,”源域 “和 “目标域 “这两个概念通常分别指训练特定 ML 模型的域和测试该模型的取自不同分布的域。
领域适应类型
根据训练过程中使用的监督水平,领域适应方法可分为三类。这类似于机器学习模型在同一轴上的标准三向分类。
-
在监督学习场景中,源域和目标域都有大量标注数据;但在使用岭域适应技术时,情况通常并非如此。
-
在半监督学习环境中,源领域有大量标注数据,但目标领域的数据量要小得多。
-
在无监督岭域适应中,源域和目标域都没有可用的标注,这实际上使得这种设置与真实世界的场景最为相似。
领域适应方法
根据将知识从源领域转移到目标领域所使用的方法,领域适应可进一步分为不同的类别。这些方法可分为以模型为中心的方法、以数据为中心的方法或混合方法。
以模型为中心的方法通过重新设计模型的某些部分来实现领域适应。这些方法包括以特征为中心的方法和以损失为中心的方法。
以下是最著名的基于特征的方法列表。
-
特征增强:例如,使用枢轴(源域和目标域的共同特征)来找到两个域之间的配准。
-
特征泛化:将数据投射到一个更低维的特征空间,该空间是基于两个领域的特征计算得出的。这样就可以利用由此产生的潜在表征,将知识从一个领域转移到另一个领域。在这方面普遍使用的是自动编码器,它是一种神经网络,能够通过产生中间编码有效地找到这种表征,并在此基础上重新生成输入。
以损失为中心的方法侧重于以某种方式改变模型的损失函数:
-
域对抗:受生成对抗网络(GAN)的启发,这些算法能够利用无法识别其来源(是否代表源或目标的某些特征)的特征表征来减少源域和目标域之间的差异。领域对抗神经网络(DANNs)已被应用于各种自然语言处理(NLP) 任务,包括情感分析、语言识别、关系提取、立场检测等。
-
重新加权:这种方法基于这样一种理念,即可以根据源域中单个数据实例与目标域的相似度比例为其分配权重。除非实例在两个域中都达到特定的相关性阈值,否则也会被弃用。
以数据为中心的方法利用了数据的某些方面,而不是改变模型结构或其损失函数。
-
伪标注指的是使用在标注数据上训练过的模型来自动预测数据集的标注,然后将其视为一种 “伪黄金标准”。以这种方式生成的标注称为 “伪 “标注或 “代理 “标注。
-
数据选择的目的是从源域中选择与目标域最匹配的数据。虽然这一领域的研究相对较少,但在机器翻译中已有应用。
-
预训练也许是当今 NLP 领域最流行的领域适应方法。自从几年前出现了基于 Transformer 的大型预训练模型后,使用少量标注数据对这些通用模型进行微调以适应更具体的任务就成了标准做法。预培训在各种应用中都取得了很好的效果,但仍存在许多问题和挑战。
另一种方法是将多个源领域的训练数据结合起来,这样也能增加特定模型在不同目标领域表现更好的机会。这种方法被称为多源域适应。
最后,混合模型结合使用了以模型为中心和以数据为中心的方法,目前正在对它们进行广泛研究。
结论
在目标领域训练数据很少或没有的情况下,领域适应提供了多种技术,有助于提高 NLP 模型的性能。通过弥合源域和目标域之间的差距,这些方法正越来越多地被用于生产更多更高效的 NLP 应用程序。
(机器翻译,轻度译后编辑,仅供参考)
编辑:胡跃