中文搭配助手CCA全新升级,助力汉语词汇教学与研究
CCA域名更新、功能升级
汉语学习、备课、研究的好助手
中文搭配助手(Chinese Collocation Assistant)是北京师范大学国际中文教育学院胡韧奋课题组主持研发的现代汉语词汇搭配检索及分析工具,旨在向全球用户提供免费、开放的大规模词语搭配知识和语料查询服务,目前,用户已覆盖六大洲的数十个国家。
近期,CCA访问地址更新,功能也全面升级,包括三个模块:
- 中文搭配助手网站:搭配检索 + 例句查询
- 中文搭配分析器:搭配自动抽取 + 句法复杂度指标分析
- 中文搭配知识库:大规模搭配研究数据开源下载
1. 中文搭配助手网站
CCA利用中文信息处理技术从语料库中自动抽取搭配信息,向用户提供汉语搭配在线检索服务,以辅助汉语教学及研究。为了适应语言教学需求,搭配数据抽取主要基于北京师范大学杨丽姣课题组构建的汉语分级阅读语料库。目前,CCA 数据库包含超过25万条抽取自分级阅读语料库的搭配及其频次、互信息、上下文信息等属性。此外,我们还从中文维基百科语料库中抽取了超过100万条搭配数据,作为更全面的搭配信息参考。
输入关键词检索,可获取多种类型的句法搭配及其频次、互信息和例句。
著名语言学家J. R. Firth指出,You shall know a word by the company it keeps。词语的意义和用法蕴含在搭配之中,搭配在语言学习中的重要性不言而喻。利用CCA,我们可以便利地查询词语用法,并开展近义词辨析,试举两例如下:
例1.输入关键词“把”,可以分别得到“CN(量词-名词)”、“PV(介词-动词)”等不同类型搭配,便于了解一个词语的多种用法。
例2.输入关键词“美丽”和“漂亮”,发现它们均可用于定中、状中和主谓搭配,但只有“漂亮”可以用于述补搭配。
此外,虽然“美丽”和“漂亮”都可以形容美好的人、地、物,但是二者仍有一些固定搭配词,不能彼此替换,比如“美丽-故事”、“美丽-传说”和“漂亮-话”、“漂亮-文章”等。可见,通过词语搭配,能够帮助我们挖掘近义词之间微妙的意义用法差别,再加以例句,近义词辨析教学再也不难!
欢迎访问CCA网站,解锁词语搭配的更多用法,详细功能介绍参见网站的用户手册,等你来一探究竟!
2. 中文搭配分析器:搭配解析,一键完成
为了更好地服务于本领域研究者,本次功能升级还带来了中文搭配分析器(Chinese Collocation Analyzer),该工具提供了Windows、MacOS (Intel)、MacOS (Apple M1)三种客户端程序,它不仅支持现代汉语句法搭配的自动抽取,还能计算句法复杂度指标,以助力文本量化实证研究。
填写试用申请后可获得软件下载链接:
https://www.wjx.top/vm/QD6GdYJ.aspx#
注:工具下载后即可离线使用,个人语料的版权和隐私得到充分保护。
Q1. 分析器该如何使用?
Step 1. 在文本框中输入文本,或者点击“选择文件”按钮上传txt格式文件,支持上传多文件批量处理。文本框输入支持最长10万字符,上传文件支持最长100万字符/文件。
Step 2. 点击“保存文件”按钮指定结果输出位置。
Step 3. 点击“搭配抽取”或者“指标分析”按钮运行程序,处理速度约1万字/秒(与系统配置有关)。
Q2. 搭配抽取支持哪些类型?
搭配定义及抽取方法来自论文胡韧奋和肖航(2019),工具支持自动抽取如下类型搭配。
Q3. 利用工具可以分析文本的哪些指标?
句法复杂度指标定义及抽取方法来自论文胡韧奋(2021)、Hu, Wu & Lu (2022),除了传统的句层面(基于句子、T单位等特征)指标外,还引入了衡量搭配多样性和复杂性的短语层面指标,支持多角度量化分析。指标列表如下所示。
注:关于中文搭配分析器的详细功能和操作方法,欢迎参考软件中的“使用说明”文档。
3. 中文搭配知识库
为服务本领域的搭配研究,课题组还开源了前期构建的中文搭配知识库,包含两个子库
-
edu_collocation_data:从汉语分级阅读语料库子库(规模约240万词)中抽取的搭配数据。
-
wiki_collocation_data:从中文维基百科(规模约1.38亿词)中抽取的搭配数据。
搭配知识库的属性字段如下所示:
下载说明:
CCA旨在为学习者、教师和研究者提供免费、开放的搭配检索和分析服务,欢迎试用CCA的系列工具及资源,并为我们提出宝贵的意见!
(1) 中文搭配助手网站:搭配检索 + 例句查询
访问地址:http://cca.irishu.cn/
(2) 中文搭配分析器:搭配自动抽取 + 句法复杂度指标分析
试用申请:https://www.wjx.top/vm/QD6GdYJ.aspx#
(3) 中文搭配知识库:海量搭配研究数据开源下载
下载说明:
https://github.com/iris2hu/Chinese-collocation-complexity/blob/main/collocation_data/collocation_data.md
问题咨询或意见反馈:irishu@bnu.edu.cn
参考文献:
[1] 胡韧奋, 肖航. 面向二语教学的汉语搭配知识库构建及其应用研究. 语言文字应用. 2019(1).
[2] 胡韧奋. 基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究. 语言文字应用, 2021(1).
[3] Renfen Hu, Jifeng Wu, and Xiaofei Lu. Word-combination-based Measures of Phraseological Diversity, Sophistication and Complexity and Their Relationship to L2 Chinese Proficiency and Writing Quality.Language Learning, 2022, 72(4).
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。
– END –
转载来源:语言学通讯
转载编辑:李帅
审核:王贇 宁静 杨瑾 谈津雷 贾锐