Sony Research已经签署了一项合作协议,以帮助测试和优化东南亚语言一体化网络(SEA-LION) 人工智能 (AI) 模型,重点关注印度语言。
Sony Research的人工智能部门将与负责开发东南亚语言一体化网络(SEA-LION)的新加坡人工智能组织(AISG)合作,填补空白,确保代表该地区人口和语言的大语言模型(LLM)在全球舞台上崭露头角。合作伙伴在周二发表声明表示,他们的研究合作将涉及SEA-LION旗下的LLMs,所有这些LLM都经过了专门针对东南亚文化和语言方面的预先培训和指导。
开源大型语言模型(LLM)已接受9810亿个语言令牌的培训,AISG将其定义为令牌化过程中分解文本后生成的单词片段。这些片段包括6230亿个英语标记、1280亿个东南亚语言标记和910亿个中文标记。
该合作意味着索尼将致力于人工智能模型的测试和反馈,利用日本供应商在印度的研究队以及开发印度语言(包括泰米尔语)大型语言模型(LLMs)的专业知识。据估计,全球有6000万至8500万人使用泰米尔语,其中大多数人居住在印度和东南亚地区。
索尼公司将交流LLM开发和研究方法的最佳实践,以及其研究成果在语音生成、内容分析和识别方面的应用。
AISG的人工智能产品高级总监Leslie Teo表示,SEA-LION人工智能模型与泰米尔语能力的集成有可能提升新应用程序的性能。他补充说,新加坡机构还将分享其在大型语言模型(LLM)开发方面的知识和最佳实践。
IBM和谷歌等行业巨头也被吸引到地区性LLM的微调中,包括使开发者可以构建定制的人工智能应用程序。
Sony Research总裁Hiroaki Kitano表示:“获取能够应对全球语言和文化问题的大型语言模型(LLMs)一直是推动研发新技术的障碍,而这些技术对于我们所服务的全球人口具有代表性和公平性。“多元化和本土化是生力军。具体到东南亚,该地区公民使用1000多种不同的语言。这种语言多样性凸显了确保人工智能模型和工具设计用于支持全世界所有人口需求的重要性。”
Sony Research成立于2023年4月,其专注于改善内容创作和粉丝参与的技术开发,包括人工智能、传感和虚拟空间等领域。例如,其深度学习研究团队一直在研究包含模型压缩和神经渲染等技术,希望这些技术能够集成到索尼的图形用户界面(GUI)开发工具神经网络控制台(Neural Network Console)和开源库神经网络库(Neural Network Libraries)中。
索尼表示,这些技术可用于由人工智能驱动的电子产品,涵盖游戏、电影、音乐等多个领域。
根据世界知识产权组织PatentScope搜索平台2024年4月的一篇出版物。其互动娱乐部门已经申请了“骚扰检测设备”的专利,该设备包括一个输入单元,用于接收生物识别数据,并能够根据生物识别数据生成与用户相关的情绪数据。
借助该系统,索尼希望能够检测和缓解多人游戏或虚拟现实体验中个体之间的恶意交流,例如骚扰。该系统利用机器学习和人工智能模型,可以检测语音等生物识别数据,并通过哭泣和尖叫等声音确定玩家的情绪状态。根据专利申请,这些数据可用于识别共享环境中的骚扰受害者。
5月,索尼音乐集团发表声明指出,除非获得明确授权,否则不应抓取其艺术家的受版权保护的作品,包括作曲、歌词和录音,也不得将其用于训练人工智能模型。
原文链接
(机器翻译,轻度译后编辑,仅供参考)
编辑:杜曼曼