瑞士德语由瑞士德语区使用的多种方言组成。大约有65%的人说瑞士德语,瑞士德语是日常交流中使用的通用语言。
瑞士标准德语是高地德语的一种,用于专业交流、报纸、电视新闻、法律文件等正式和书面交流。它也是瑞士学校和非德语地区教授的德语。
因为瑞士德语方言是一种口语,因此要将其转写为书面形式。因为瑞士德语没有标准的正字法,因此人们在书写时使用他们认为最能代表方言发音的德语字符。当瑞士德语使用者在上网时编辑信息、发帖或评论时,就可以看到这种情况。
然而,由于每个州的单词发音不同,其书面拼写也不尽相同,例如“e”和“ä”之间的语音区别。再比方说,动词“aufstellen”在伯尔尼方言中写作“ufbouä”,而在苏黎世、卢塞恩和巴塞尔方言中写作 “ufbaue”。
技术中的瑞士德语方言
瑞士人在与亲朋好友的日常交流中,以及在与同事、客户、合作伙伴等的专业交流中,都会使用他们的方言变体。但是,拼写纠正器、预测性文本甚至自动翻译器等实用工具对于瑞士德语来说根本不存在。由于瑞士德语被认为是一种口语,因此学术研究主要集中在发音和与语音相关的语言资源和技术的开发上。然而,由于缺乏足够多的书面语资源,开发高级自然语言处理技术和工具(如语法分析、词义消歧、摘要、机器翻译和机器人)的机会大打折扣。
为自然语言处理(NLP)构建瑞士德语词汇数据
在Oxford Languages中,我们创建了一个大型的瑞士德语词汇数据集,重点介绍瑞士标准德语以及伯尔尼、巴塞尔、苏黎世和卢塞恩的瑞士德语方言。
这是一个独特的瑞士德语资源,可以帮助开发专业的定制自然语言工具。我们的词汇数据不仅限于从语料库中提取标记数,我们还添加了形态学信息和平行的人工翻译,这有助于进一步研究和开发复杂的自然语言工具,将现有的标准德语工具改编和转换为瑞士德语,以及将现有资源本地化。
与此同时,我们的词汇数据还可用于利用最先进的高德语资源,并通过知识转移技术将其本地化为瑞士德语的对等词,还可用于建立结合德语变体的资源,以实现跨语系使用。例如,信息提取、文档的自动本地化,甚至与机器人的跨语系交流。
考虑到瑞士德语是根据方言发音书写的,我们的词汇数据还可以支持语音资源和技术的补充研究、进步和成熟。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:章坚