开拓出版领域:从词典到语言数据
Lexicala已经从出版界脱颖而出,成为全球领先词典出版商的优质词典内容提供商,并作为语言数据销售商加入了TAUS Data Marketplace。
TAUS Data Marketplace为每个人带来了新的机会,从个人语言学家和LSP到数据和出版公司,以利用和变现他们的内容。成为人工智能语言数据激增趋势的一部分的关键是成功地将可用的多语言内容转换为可直接用于人工智能模型训练的语言数据。
对于许多扎根于出版业的公司来说,这仍然是一个挑战。Lexicala是出版界出现的一个特殊例子,作为全球领先词典出版商的优质词典内容提供商,它专业地克服了这一挑战,并作为数据销售商加入了TAUS Data Marketplace。他们在市场研究的时候遇到了TAUS平台,并决定这将是他们实现业务发展目标的一个有趣的平台,并且调整他们的数据以作为语言数据发布和销售是相当简单的。
我们采访了首席执行官伊兰·肯纳曼,内容经理拉亚·阿布·艾哈迈德,还有Lexicala的软件经理Maayan Orner,他们讲述了走上这条道路的历程。Lexicala以 K Dictionaries在特拉维夫成立,它起源于英语学习词典。在20世纪90年代,K Dictionaries围绕其创新的定制词典与出版合作伙伴建立了独特的合作网络,并成为双语、教学、数字和面向用户的词典编纂领域的先驱。近来,他们在这些领域最著名的亲密合作伙伴是剑桥大学出版社以及也是由他们运营的世界上最受欢迎的词典网站英语学习者词典网站。
在世纪之交,我们扩展到多语种词典编纂,并开始探索新的方法和技术。我们借此为选定的世界语言创建了一系列系统的、突破性的单语数据集,重点关注数据结构和格式,用于开发完全双语的语言对和多样化的多语言组合,并使我们逐渐演变为技术驱动的内容创作者,”Ilan说。
如今,他们已经将数据生成和数据验证的智能自动化流程与专家人工管理的编辑融合在一起,使他们的资源具有互操作性,并有利于NMT和其他NLP和人工智能应用程序使用,并以新的商标名Lexicala提供高端跨语言词汇数据。
“TAUS Data Marketplace为我们提供了一个绝佳的机会,可以接触到更多的潜在客户,他们可以从我们的并行语料库的附加值中受益,以增强他们的ML模型的训练,并改善他们的NMT解决方案的结果,”Ilan补充说,这符合他们的业务战略。
2021年8月,Lexicala向TAUS数据市场上传了20种语言的357个双语数据集的首次发布,包括总共170万个平行句段和4300万个字符。语言包括阿拉伯语、中文(简体)、丹麦语、荷兰语、英语、法语、德语、希腊语、希伯来语、意大利语、日语、韩语、挪威语、波兰语、葡萄牙语——巴西语和欧洲语、俄语、西班牙语、瑞典语、土耳其语以及拉丁语,仅翻译成法语。他们的数据集中的句段都来自人工整理的用法示例及其对等翻译,仅由完整的句子组成,并以通用语言为特色,即独立于领域而非垂直的词汇。Lexicala数据集可在TAUS Data Marketplace购买。检查数据样本并开始训练!
“这些数据是由我们在世界各地的编辑根据语料库和每种语言的频率创建的。他们创建、审查、精选和手动管理用法示例,以此作为汇编最重要的词条、词义和多词表达的字典条目的一部分。这些用法的例子然后由专业翻译人员翻译,是现在DMP上可用的平行语料库的核心,”Raya说。Lexicala解释说,他们在这个过程中面临着几个挑战,如噪音句段和错误标记的数据集。对于第一个,他们开发了一种基于基本统计和启发式规则的算法来消除噪声段,对于后者,他们开发并使用了另一种算法来分类<句子,语言>根据现有的语言识别模型和前馈神经网络判断是否正确。Maayan解释说:“对于特定的任务,我们的定制模型比基线语言识别模型(检查标记的语言是否与识别的语言相同)有了显著的改进,主要针对高度模糊和相互理解的语言群,如北欧语言群。”
他们希望加入TAUS Data Marketplace将增加他们在MT训练市场的曝光率,并扩大他们的客户群。Ilan说:“反之亦然,我们数据的巨大数量和多样性,以及它相对于更传统的自动收集的平行和可比语料库的优势,可以帮助提高市场对买家的吸引力。”
至于数据隐私和所有权问题,Lexicala对这一主题尤其关注。“这也是我们与TAUS讨论的一个重要话题,以确保我们上传到DMP的数据受到高度保护,仅限TAUS将其整合到他们的NMT系统中,以升级内部流程和结果,而不会让其他人按原样获得,”Ilan解释道。作为一家植根于出版业的数据公司的首席执行官,Ilan认为,传统上,在字典行业,出版商在与他人共享资源方面往往很保守,但随着在线免费提供字典和从广告中获得收入的商业模式的出现,这种情况正在发生变化。Lexicala是早期改变者之一,然而,似乎更多来自出版界的公司即将跳上LD4AI(人工智能语言数据)的快车。 虽然很难预测未来,特别是面对人工智能训练领域的快速发展,但Lexicala预计全球NLP市场将继续大幅增长,如最近的一份报告所示财富杂志报告预计总规模将从2021年的210亿美元增长到2028年的1270亿美元。他们认为,对于数据共享和各种市场,将会有更多的需求、更多的专业化和更多的定制化趋势。
(机器翻译,轻度译后编辑,仅供参考)
编辑:胡跃