数据市场中NLP驱动的单词云( Word Clouds) 关于你的训练数据集,NLP驱动的词云能告诉你什么?以下是我们如何在TAUS数据市场上创建单词云。 双语的、NLP驱动的单词云现在可以在TAUS数据市场获得。在本文中,我们将讨论什么是单词云,以及它们可以告诉我们关于包含双语文本数据的文档内容的什么信息。 当涉及到理解大型数据集合的内容时,可视化是许多组织和个人依赖的关键技术之一。当试图传达数据集的创建者或用户认为重要或感兴趣的某些类型的信息时,选择正确的可视化方法至关重要。例如,在世界地图上使用不同深浅的颜色是说明全球人口密度的一种很好的方式,而人口金字塔可以告诉我们许多关于某个地区的人口统计数据,包括年龄和性别。然而,由文本组成的数据集包含一种非常不同的数据——它们由单词和句子组成,而不是数字变量。 可视化这些数据的一种方法是使用单词云。单词云是文本数据集中所包含词汇的简单、加权的可视化表示,允许我们一目了然地估计数据的内容。它包含数据中出现频率最高的单词,频率较高的单词比频率较低的单词显得更大。此外,单词云还可以包含每个单词的频率计数,例如,在文档示例页面上,您可以通过将鼠标指针悬停在某个单词上来查看该单词在文档中出现的次数。您可以通过浏览the Marketplace sellers page来尝试此功能。 此外,单词云提供了对文本文档领域的出色洞察。通过检查文档的单词云,您可以立即看到词汇表是否与您期望根据数据集的领域标签找到的内容相匹配。例如,如果文档来自保健/医疗设备&供应品领域而单词云包含像“治疗”、“临床”和“患者”这样的单词,那么您可以确保上述文档包含高质量的、特定于域的数据。 为双语文档生成单词云听起来可能是一个相对简单的任务,但实际上,要考虑的细节很多。TAUS应用自然语言处理技术来生成高质量的单词云,以最佳方式表示每个文档的内容。 TAUS数据市场中的所有数据都以句子的形式出现,因此生成我们的“NLP驱动”单词云的第一步是将它们分成单词级单元,也称为标记(tokens)。这个过程被称为标记化(tokenization),几乎每种语言都需要特定的解决方案,当处理像中文这样书写系统由非字母语言的字符构成的语言时,会变得相当棘手。这就是为什么我们依赖spaCy NLP library,它允许我们快速有效地用几十种不同的语言标记数据。 获得文档中所有标记的列表后,必须应用一些额外的过滤手段,以便只保留最重要的内容词。因此,下一步是删除停用词,包括冠词(“the”、“a”、“an”)、介词(“to”、“from”、“in”、“on”等短虚词。),以及各种文本中常见的词,如“was”、“were”、“can”。为此,我们使用spaCy提供的停用词列表和我们自己维护的停用词集合。当然,这必须为我们数据库中的每一种语言单独完成。此外,传递很少或不传递信息的标记,如数字和单字符标记,也会被删除。 删除停用词后,计算每个内容词在给定文档中出现的次数,并保存在频率表中。为了获得双语文档的最终计数,我们合并来自源语言和目标语言的频率数据,并且只保留最频繁的条目。这些计数表示每个单词在文档中出现的次数,并用于在Data Marketplace网站上生成单词云。 单词云是一种简单而有效的方式,以清晰且易于理解的方式可视化文本数据。通过将它们添加到TAUS Data Marketplace,我们希望改善用户体验,以便数据销售者和购买者都能更好地了解他们文档的内容。浏览我们的一个文档示例页面上的单词云,亲自探索这些数据。 (机器翻译,轻度译后编辑,仅供参考) 编辑:胡跃它是如何工作的
结论