数字人文之语料库研究——西部AI语料库

分享

其他推荐

语料库与大模型 助力行业应用
导语
大模型与AI语料库技术将日益同各行各业的具体实践深度结合。尤其在语言服务领域,新兴技术加快了译者同科技的融合步伐,推动了语言服务行业朝着更为高效、精准、全面的方向发展。

一、生成式AI开发背景

2017年Google发布最早的大模型Transformer以来,随着计算机硬件性能不断提升,深度学习算法持续优化,大模型迅速发展,BERT、T5、GPT-3等大模型相继发布。近两年来,生成式AI产品迭出去年11月,OpenAI发布了基于GPT大模型的ChatGPT,标志着生成式AI的一个重要里程碑。我国大模型训练发展迅速,从2020年发布2个大模型2021年推出30个大模型2022年发布28个大模型,截至2023年7月,我国已发布64个大模型,国产大模型迎来爆发式增长,应用于金融、工业、医疗、教育等多个领域,成为全球大模型领域的领跑者。
二、“西部AI语料库”技术创新
2023年8月18日至19日,由工业和信息化部、宁夏回族自治区人民政府联合举办的2023中国算力大会在宁夏银川举行。中译语通在会上发布“西部AI语料库与大模型”,是生成式对话大模型、人工智能语料库等领域的又一大创新成果,受到了语言服务行业的一致关注。
“西部AI语料库”以中译语通自主研发的“格物”大模型和多语言AI语料库为数据基础,由100多种语言、PB级多语言多模态高质量数据、“一带一路”沿线国家与地区的近80亿句对的高质量平行语料以及百亿级知识三元组条目构成。语料库覆盖新闻、农业、水利、科技、金融、工业等领域,旨在支持面向西部地区与周边国家和地区应用的多语言自然语言处理和多模态大模型训练。
“西部AI大模型”构建了多模态、多场景、多语言感知世界、认知世界的通用能力,囊括了西部多语言生成式对话大模型、西部多语言机器翻译超大模型、西部多语言预训练模型和多模态预训练模型四个子模型。其中,西部多语言生成式对话大模型融合上下文理解、个性化、思维链等高达亿级规模的高质量业务化指令,并引入领域专家对齐和社交对抗反馈的混合强化学习技术,旨在打造时效性较高、千人千面的生成式大模型。
“西AI语料库与大模型”的成果将落地位于宁夏中卫的中国联通智算中心训推一体枢纽节点,立足于宁夏作为“一带一路”和中阿合作重要窗口的政策优势,支持西部政务、商贸、文旅等行业应用。
三、“西部AI语料库”应用前景
在国家“一带一路”政策的支持下,宁夏不断推进内陆开放型经济试验区建设,打造了中阿博览会等一系列经贸、文旅、科技、生态合作平台,其中就包括“西部AI语料库”。这是由于我国西部地区的对外开放政策主要对接中亚、中东等地区的“一带一路”沿线国家,这些国家所使用的语言以阿拉伯语、俄语、伊朗语及其他阿尔泰语系语言为主,是大众认知中的“小语种”,相较于英语、日语等外语而言,这些语言服务领域仍有较大的空白需要填补。
“西部AI语料库”可通过多语言机器翻译大模型、多语言生成式对话大模型的构建,为中外对话的有效开展带来便利。同时,近年来我国开始着力推进与亚非“一带一路”沿线国家的互知互信,“西部AI语料库”可提供包含各领域信息的海量数据,在一键检索之间,推动中国走向世界,帮助世界看见中国。总之,“西部AI语料库”通过立足于国家西部,积极利用“一带一路”相关政策带来的优势条件,为我国西部地区“走出去”提供高质量语言服务支撑。
四、国产其他大模型速览
目前,国内AI大模型正上演着一场激烈的争夺战,无论是华为、阿里等科技巨头,还是学术界翘楚,都在推出各自的大模型,并积极推进生成式AI应用落地。8月31日,国内11家大模型上线,率先向公众开放,包括百度的文心一言、华为的盘古大模型、中科院的紫东太初、腾讯的混元大模型、科大讯飞的星火大模型、商汤的商量SenseChat等。用户可申请体验AI创作、图文生成等功能,并通过反馈助力模型改进,加速模型迭代。
国内大模型面向各大专业领域。在法律领域,北大推出的ChatLaw大模型可引用相关法律条款,并利用自身的总结和问答功能向用户的咨询提供建议;在医疗方面,香港中文大学(深圳)和深圳市大数据研究院联合发布了一个新的医疗大模型——HuatuoGPT(华佗GPT),基于医生回复和 ChatGPT 回复,提供丰富且准确的问诊;在金融行业,度小满发布的大模型“轩辕”可理解金融名词、评论金融市场、分析金融数以及理解金融新闻;而在教育版块,网易有道推出的“子曰”大模型,则可实现口语训练、作文批改、习题答疑等。

图源 文心一言
大模型在未来必将成为我们工作生活的一部分,不论是医疗、金融、制造业还是教育,大模型都将以各种形式出现,提高生产效率,让生活更加智能化,期待未来更多大模型应用落地。
 
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

– END –

翻译技术教育与研究——数字人文专题组致力于通过原创和转载为广大语言类专业师生、翻译学习者提供国内外数字人文视域下翻译研究领域前沿动态、经典文献回顾、数字人文资讯转载及学术会议追踪!

原文作者:雷沐瑶

推文编辑:田贝西

Was it helpful ?

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注