基于术语主题分析的出版行业知识服务关键技术研究

 

术语实务
01
关于文章
原文标题 | 基于术语主题分析的出版行业知识服务关键技术研究
原文刊登 | 《中国科技术语》2023年第3期
基金项目 | 2021年济南市科技创新发展资金项目“出版产业大脑建设”(202126001
文章版权 | 本文已获得原作者授权,如需转载,可关注本号,在后台留言
02
内容摘要
出版产业相关管理和研究人员在规划和决策时,离不开行业技术现状分析。文章基于Web of Science核心合集数据库和Derwent Innovation Index数据库中有关出版业知识服务关键技术的相关论文和专利,以术语主题分析为手段,从基础和应用两个角度梳理和分析了当前出版业知识服务中的热点技术及其未来发展趋势。结果表明:出版基础技术更关注人工智能和数据分析;出版应用技术则更关注数字广告和区块链技术;出版基础技术和应用技术均非常关注在线教育服务技术;未来随着版权保护、元宇宙等领域的发展,人工智能、区块链等关键技术必将在出版行业知识服务中获得更大发展;建议在《编辑与出版学名词》等相关术语的编纂过程中,适当吸纳相关术语主题分析的结果。
00

近年来,人工智能推动新兴产业的智能化发展成效显著,但在一些传统产业领域尚待提升。传统出版业作为文化产业的重要组成部分,在维护国家意识形态安全、推进习近平新时代中国特色社会主义思想的宣传和阐释、推动国家文化软实力建设、提升国民素质和社会文明程度等方面发挥着不可替代的重要作用。2019年国家六部委印发的《关于促进文化和科技深度融合的指导意见》以及山东省政府印发的《山东省文化创意产业发展规划(2018—2022年)》都明确提出以智能化、融合化、绿色化为导向,全面构建“互联网+出版传媒”的内容生产、传播、消费体系。出版业应抓住新技术带来的转型机遇,构建“出版+人工智能”的新模式和新形态,通过关键技术研发、数据科学处理与分析,构建出版产业大脑,再造智能化出版流程,从而解决出版融合发展中面临的现实问题,如技术存在缺陷、出版资源数据化进程缓慢、出版有效供给不足和专业人才缺乏等。山东省数字融合出版创新创业共同体,通过研究关键技术、出版大数据建设、人才培养与聚集等问题,客观分析了出版产业现状,提出推动传统出版的转型升级、打造新兴出版生态的构想,以期未来利用人工智能实现智能决策和智能规划。

01
研究现状
目前知识服务已成为出版业的主流研究方向,但具体到知识服务技术,特别是系统性体系化的研究还较少。吴浩强等[1]基于个体案例,采用案例分析法基于企业价值链重构的目的论述了数字技术对知识服务价值增值的重要意义。雷鸣等[2]采用调查问卷、频次分析和多重响应分析法对大学出版社数字化转型中出现的问题进行了分析,指出需通过完善数字出版产业链来推动技术革新。余强[3]采用案例分析法梳理了复合出版工程技术体系并提出了数字化系统总体架构,其中包含知识服务。金佳梦等[4]通过文献综述,从中外对比的角度系统性阐述了学术出版知识服务的现状和问题,其研究结果表明,当前知识服务的关键技术发展不足,未来需提供有力的技术保障体系。周云倩等[5]于CSSCI论文数据,从多维角度分析了传统出版业应向知识服务转型,提出了技术将赋能出版转型发展的结论。孙小琪[6]于统计分析,论述了人工智能技术在出版知识服务中的应用,并指出若要形成全新的出版知识服务生态需从思维转型和技术转型两方面着手。
 
从现有研究可以发现,当前对出版业知识服务关键技术的研究存在以下问题:(1)现有研究普遍停留在横向层面,缺少纵向的深度解析,且尚未形成技术知识体系;(2)研究方法多为案例分析法、文献综述法等定性研究,定量研究普遍仅针对单一数据源。
02
研究方案
基于以上分析,本文按照如下分析方案完成研究(如图1):基于包含数据、信息、知识、情报和智慧的DIKIW模型,构造初步的数据检索式,并在领域权威报告和综述论文基础上对检索式加以修正,进而从文献数据库中抽取出可以用于分析的基础数据。基础关键技术分析主要基于Web of Science (WOS)核心合集数据库中的论文,应用关键技术分析主要基于Derwent Innovation Index (DII)数据库中的专利。由于检索出的数据存在噪声,还需要通过人工浏览阅读的方式进行清洗去除。WOS数据库中存在关键词字段,可以对其直接进行抽取,而DII数据库中无关键词字段,因此需要利用深度学习模型先进行训练和抽取,两个数据库中抽取出的关键词都需要进一步清洗处理,从而得到分析所需的关键词列表。在清洗后的数据和关键词列表基础上,可以进行主题分析,以便进一步分析和研究出版行业知识服务关键技术。主题分析主要分为两个独立的模块,一是基于复杂网络社区发现的关键技术主题发现,二是基于词云分析的热点和前沿技术分析。
 
03
数据处理
3.1 检索式构建依据
本文的检索式构建参考国内外知识服务相关概念追踪与辨析研究论文[7],确定本文对出版业知识服务的定义是包含信息、数据、智慧等,集内容创作、生产、传播甚至应用于一体的知识内容的跨领域全新服务模式;基于该定义,参考具有普遍适用性的DIKIW模型,确定“知识服务”的限定检索式为:
 
TS=(“data” or “information” or “knowledge” or “intelligence” or “wisdom”)
 
因本文的研究对象是出版业知识服务关键技术,因此构建检索式的目的在于在海量文献数据中找到出版业中的知识服务及其包含的技术。首先,“出版物”是一个具有强烈出版属性的检索词。因此,将TI=(“publication” or “publications” or “publicate”)作为检索字段之一。其次,综合张立等[7]的观点,本文认为和传统出版单一的内容传播功能相比,出版业知识服务更多地是将整个出版产业链各个环节数字化和智能化。因此,数字出版物更具有代表性。本文参考中国新闻出版研究院发布的《2019—2020年中国数字出版产业年度报告》,对报告中提到的互联网期刊、电子书、数字报纸(不含手机报)、博客类应用、在线音乐、网络动漫、移动出版(移动阅读、移动音乐、移动游戏等)、网络游戏、在线教育和互联网广告这10类出版物及其拓展概念(参考出版类图书、论文、百科等)作为检索词。对由此确定的所有词分别进行检索,剔除检索质量不好或检索数目为0的词,剩下的词作为本文检索式的一部分。此外,本文认为互联网广告、在线教育以及博客类应用的相关概念本身即具有出版业知识服务属性,因此不再增加“知识服务”作为检索式约束条件, 然后形成本文的最终检索式。
 
3.2 检索范围
本研究的检索条件设置如下:出版时间为近5年(检索时间2022年7月5日,下同)、发表语言为英语的全部文献的题录数据。

 

3.3 检索结果

依照上述方式构建的检索式,以WOS数据库核心合集为论文数据来源,共检索出近5年的9580条论文题录数据。以DII为专利数据来源,共检索出近5年的6190条专利题录数据。浏览检索结果后发现,存在一些与出版不相关的论文和专利。因此,手动剔除这些论文和专利,将剩下的文献整合作为本文实验数据。
 
3.4 数据整理
该步主要工作是抽取论文和专利中的关键词,并构建相应的关键词共现矩阵用于后面的实验分析。
 
首先抽取了论文数据中存在于关键词字段(DE)的关键词。由于专利数据缺少关键词字段,本文选择Keybert工具对专利的标题及摘要字段进行关键词抽取。Keybert工具提取关键词的原理为:以嵌入BERT模型和简单的余弦相似性来查找文档中与文档本身最相似的子短语,然后分别统计两类数据的关键词词频数并进行排序。采取人工手段,对关键词的大小写、单复数、简称和全称、特殊字符、拼写错误以及干扰词等进行清洗。将清洗后的关键词中词频大于5的关键词作为列入关键词表的标准,分别构建论文关键词表和专利关键词表。基于该列表,构建论文关键词共现矩阵和专利关键词共现矩阵。其中,专利关键词共现矩阵是计算专利关键词在标题和摘要两个字段中共现的次数。所有计算结果均需做归一化处理。
04
基于论文的基础关键技术研究
4.1 主题发现
关键词词频只能在一定程度上表征各主题的热度,无法揭示关键词之间的相互关系。因此,文章在构建关键词共现矩阵的基础上,使用Gephi内嵌的社区发现算法对关键词进行分析,共发现了7个主题。主题分布情况如图2所示,其中一种颜色代表一个主题聚类,与主题对应情况如其左上角图例所示,图例按照各主题术语比重排序。对各主题进行归纳,结果见表1。
 
4.2 热点技术分析
关键词词频分布一定程度上反映了主题的热度。关键词词频越高的主题,越能代表该产业目前的研究热度。本文借助R语言的bibliometrix包,对论文的关键词词频进行统计,并绘制了词云图(见图3)。
 
由图3可明显看出,以“e-learning”和“mooc”为代表的“在线教育服务”主题是当前的热点技术,对应主题1,其所包含的主要技术整理见表2。
 
 
以“bibliometric analysis”和“big data”为代表的“数据分析”主题是当前的热点技术,对应主题5。其所包含的技术整理见表3。
 
 
以“artificial intelligence”和“deep learning”为代表的“人工智能”主题是当前的热点技术,对应主题3,该主题包括的技术整理见表4。
 

 
以“online advertising”为代表的“数字广告”主题是当前的热点技术,对应主题2。该主题包括的技术整理见表5。
 
 
以“knowledge management”为代表的“知识管理”主题、以“cloud computing”为代表的“云与区块链”主题和以“sensor”为代表的“可穿戴设备”主题未在高频关键词的词云图中出现。和前4个主题相比,这3个主题作为出版业知识服务的基础关键技术,研究热度较低。具体包括的技术整理见表6。
 
 
4.3 国内外对比分析
对论文实验数据进一步处理,抽取“CL”字段包含“China”的论文数据,汇总清洗后共计1877篇。人工对这1877篇论文进行分类,其中在线教育服务技术和人工智能技术占比较大;区块链技术、数字广告技术、数据分析技术、知识管理也有所涉及。可以发现我国在该领域的基础研究还较为薄弱,同时,当前国内普遍将出版业知识服务技术研究的重心放在在线教育服务上,人工智能算法也主要用于解决基于社交媒体的舆情分析、情感分类、意见领袖等问题,研究热点和重点分布不均衡。
05
基于专利的应用关键技术研究
5.1 主题发现
使Gephi内嵌的社区发现算法对关键词进行分析,共发现了8个主题。主题分布情况如图4所示。其中一种颜色代表一个主题聚类,与主题对应情况如左上角图例所示,图例按照各主题术语比重排序。对各主题进行归纳,结果见表7。
 
 
5.2 热点技术分析
本节依旧采取关键词词频与主题结合的方法分析出版业知识服务热点应用技术。采用R中的wordcloud 2包绘制专利高频关键词词云图(如图5)。
 
 
基于图5词云图,以“banner”和“advertising”为代表的“数字广告”主题,其所包括的技术整理见表8。
 
 
以“online game”和“online education”为代表的“在线教育服务”主题包括的技术整理见表9。
 
 
以“block chain”为代表的“区块链”主题,该主题包括的技术整理见表10。
 
 
以“cloud”为代表的“云”主题,该主题包含的技术整理见表11。
 
 
以“database”为代表的“数据分析”主题,该主题包括的技术整理见表12。
 
 
以“knowledge management”为代表的“知识交互”主题、以“artificial intelligence”为代表的“人工智能”主题和以“sensor”为代表的“可穿戴设备”主题未在高频关键词词云图中出现。其所包含的技术整理见表13。
 
 
5.3 国内外对比分析
对专利实验数据进一步处理,通过PN字段提取出属于中国的专利,汇总后经过清洗共计3554篇。人工对这3554篇论文进行分类,其中数字广告技术、人工智能技术占比较大,在线教育服务、云技术、区块链技术、数据分析技术、知识管理也有所涉及,且数量相差不大。由此可知,我国在出版业知识服务应用技术方面占据绝对地位,专利数量占据总体的一半左右。应用热点和重点分布也较平均,具有较好的发展格局。
06
基础技术与应用技术对比
借助文献计量学及深度学习技术,将论文和专利数据进行分析,梳理出当前出版业知识服务基础关键技术和应用关键技术,并结合关键词词频对技术热度进行了排序,结果如表14所示(其中黑体字代表高热度技术,斜体字代表中热度技术,宋体字则代表低热度技术)。
 
 
通过对比可以发现,在线教育服务在基础技术和应用技术中都得到很多关注,两者除了均关注师生之间的交互技术外,基础技术更关注出版内容本身的表现方式,应用技术则更注重出版过程中的知识传播。人工智能在基础技术中属于高热度技术。在应用技术中则属于低热度技术,且其子技术较少,原因在于人工智能中的一些子技术当前还停留在概念或小规模实验阶段,落地性和推广性还有待考究,距离大规模应用还有距离。云计算和区块链在基础技术中热度较低,研究也较为空泛,但在应用技术中却得到较高的关注,出现了很多子技术。值得指出的是,随着版权保护、元宇宙等领域的发展,未来区块链将成为出版业技术发展的重点。当前知识管理和可穿戴设备的研究热度一般,前者在于行业推广度不够,后者则是有很多其他学科的技术壁垒尚待攻克。未来随着知识服务在出版业的逐步发展,两者还有很大的增长潜力。
07
结语
本研究结合出版业发展需要,梳理了当前出版业知识服务中的关键技术。本文基于多源数据,从基础和应用两个角度进行了定量分析,在提取专利关键词的过程中使用了深度学习算法,并通过人工聚类的方法梳理出领域的细分技术,方便后面技术谱系的描述。本文旨在帮助出版产业相关“政产学研金服用”的相关用户了解当前的研究和应用热点,辅助政府有关部门制定决策方案,同时有利于出版产业链中不同类型的企业做战略规划,推动产业链转型和升级。本文选定的时间段是5年,加之出版产业知识服务的界定也有不断深化的过程,未来还可以借助建成的出版产业大脑对技术趋势和各细分技术在出版业的应用做更深入的研究。2022年正式出版的《编辑与出版学名词》收录了数字广告、多媒体、人工智能等体现出版知识服务关键技术的术语[8],建议今后结合出版产业的实际发展,酌情收录区块链、全息投影、html5等术语。
 
参考文献

作者简介
范波(1981—),男,博士,山东出版传媒股份有限公司副总经理,山东文化创意设计行业协会副会长,山东省文化产业发展协会副会长,山东财经大学兼职硕士导师。主要研究方向为新一代信息技术、数字经济等。长期从事信息化建设、数字化转型、在线教育及新业务开拓等方面的工作,主持完成省级重点项目10余项。
通信方式:18866816789@139.com
 
 
贾广胜(1968—),男,硕士,编审,山东出版数字融合产业研究院院长。主要从事图书、期刊、音像电子、数字出版以及新媒体、业态融合等方面的应用研究。发表论文10余篇,主持策划的《乡村记忆》《中国汉画像石粹编》(中英文)、《老家的滋味》等出版物获中国政府出版奖提名奖、中华优秀出版物奖提名奖。
通信方式:1809843448@qq.com
 
 
张智(1980—),男,硕士,济南市科学技术情报研究院副研究员,山东省专业标准化技术委员会委员。长期从事电子政务系统建设、数据库开发、大数据应用以及相关技术在科技计划项目管理、科技成果转化、科技项目评价等方面的应用研究。
通信方式:zhangzhi@jn.shandong.cn
 
通讯作者:
范林海(1970—),男,本科,山东出版数字融合产业研究院副院长,山东省文化创意设计行业协会理事,山东省会经济圈文创发展工作委员会副主任。主要研究方向为企业数字化、智能化建设等。
通信方式:1071215380@qq.com
 
 
王力(1993—),女,硕士,中国科学技术信息研究所助理研究员,富媒体数字出版内容组织与知识服务重点实验室办公室副主任。研究方向为知识组织与知识服务、数字出版等。
通信方式:wl@istic.ac.cn

声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:chongchong@lingotek.cn,我们将及时调整处理。谢谢支持!
 
本文转载自:中国科技术语

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注