浅谈文本摘要
文本摘要可以分为两种类型:提取和抽象。随着人工智能的力量,摘要变得越来越流行和容易理解。
文本摘要是从较长的文本中提取片段以组合(较短的)摘要的过程,其中保留了文本的关键元素和意义。手动完成这项工作是一项非常耗时和费力的任务。然而,在数据和人工智能革命的推动下,这项任务的自动化越来越受欢迎。我们可以区分两种类型的文本摘要:提取和抽象。
提取型摘要
提取型摘要是自动文本摘要最简单的方法,因为它几乎不需要语言分析。在提取型摘要中,句子是根据它们的得分直接从文档中挑选出来的,然后放在一起形成一个连贯的摘要。通过这种方法,文本的重要部分被识别出来,然后被裁剪并缝合在一起,以产生完整文档或文本的压缩版本。提取型摘要包括三个步骤:
-
第一步是构造输入文本的中间表示。有两种方法可以做到这一点:主题表示(topic representation)或指标表示(indicator representation)。在主题表示中,文本被转换成一系列成分主题。用于此处的技术在复杂性方面和表示模型方面皆有所不同,并分为频率驱动方法、主题词方法、潜在语义分析方法和贝叶斯主题模型。在指标表示中,每个句子被表示为一个重要性指标的列表(句子长度、在文档中的位置、某些短语的出现等)。有一些指标表示法的用例,比如基于图形的模型和机器学习模型。
-
第二步,中间表示环节中的每个句子都被分配一个分数或表明其重要性的值。对于主题表示,分数通常与句子如何表达文档中一些最重要的主题或它在多大程度上结合了不同主题的信息有关。对于指标表示,每个句子的分数是通过组合不同指标的结果来确定的。
-
在最后一步中,摘要器选择重要句子的最佳组合,形成平均长度的摘要。通常,形成所需长度摘要的最重要(价值最高)的句子被放在一起。理想情况下,系统试图最大化整体重要性,最小化冗余句子,最大化连贯性。
抽象摘要
抽象摘要需要更高级的自然语言处理(NLP)技术,因为它旨在通过诠释文本来形成摘要。在抽象摘要中,人工智能模型整合了重要信息,以生成新的和重新措辞的句子,其中部分内容可能并没有在原文中出现。这些生成的摘要在语言上更加流畅,可媲美人工生成的摘要。抽象摘要可以被视为一项“序列映射任务”,其中源文本应该映射到目标摘要,这项任务的顺利完成需要得益于人类目前在深度学习技术和“序列到序列模型”的构建等方面取得的进步。就像机器翻译模型一样,这些序列到序列模型由一个编码器还有一个解码器组成,其中神经网络读取文本,对其进行编码,然后生成目标文本。因为它涉及复杂的语言建模,所以构建自动的拟人的抽象摘要仍然是一项具有挑战性的任务。有一些免费的在线工具可用于自动的提取型摘要和提取型摘要,例如SummarizeBot,Resoomer,SMMRY,TextSummarization,Text Compactor。
(机器翻译,轻度译后编辑,仅供参考)
编辑:胡跃