人工智能语言数据(Language Data for AI)年度事件回顾回归硅谷
共享100多种语言数据,让来自世界各地的人工智能行业领袖和大师一起集思广益,应对共同挑战,分享创新解决方案
自从我们定期在世界各地聚在一起讨论行业现状以来,已经过去了将近三年。在TAUS 15年的活动历史中,我们讨论了许多话题。从本地化工作流程、定价模式、在我们的翻译工作流程中采用质量评估指标、质量标准,到帮助翻译人员提高效率、生产力和创造力的许多不同的翻译技术。我们就遇到的各种挑战的解决方案进行了头脑风暴,同时,TAUS开始创建我们自己的产品和服务套件来应对其中的一些挑战。在过去的几年里,世界发生了变化,TAUS也发生了变化。我们很高兴再次聚在一起,在我们即将到来的定于2022年10月11日、12日和13日在加利福尼亚州圣何塞举办的大型多语种会议&博览会上推出新的TAUS,以及令人兴奋的新子行业人工智能语言数据(Language Data for AI)。
多年来,我们与我们的演讲者、参展商和与会者一起,努力推动行业发展,推动机器翻译的采用。既然MT已经存在,那么是时候讨论我们如何可以做得更好。在TAUS会议上,您会看到我们邀请了许多来自机器翻译、机器学习和人工智能部门的大师、专家和思想领袖来分享他们的见解。我很高兴能在这篇博文中让读者先睹为快。
如果你在翻译和人工智能领域工作,“大规模多语言”( “massively multilingual” )这个词对你来说并不陌生。为了实现大规模的多语言化(换句话说,用地球上任意族群的母语与他们交流),你需要两样东西:算法和数据。在大会的开幕式上,我们将确切地讨论这个问题。我们的核心重点应该集中在哪里?大规模模型的巨大力量该如何利用?如何通过巧妙处理高质量数据来微调这些模型?关于数据这一主题:我们还邀请了各种工程师来分享翻译领域以及自然语言处理领域的最新和最伟大的成果。
当我们致力于改进模型和技术以获得高质量和特定领域的数据集时,我们同样需要质量评估的工具和手段。只有通过质量评估才能衡量取得的进步,不是吗?在另一个小组对话中,我们将讨论机器翻译的评估技术,机器翻译是否已经媲美人类(如果我们能够达到的话),并问自己这样一个问题:机器翻译有极限吗?
然而,我们不能只谈论科学和理论。听取以MT为工作流程中心的企业的意见也很重要。大多数玩家将MT视为他们现有翻译过程的插件或附加物。这不是我们对TAUS翻译未来的看法。各种公司将分享对MT带来的多语言交流新用例爆炸的见解。当然,我们还将讨论从传统翻译流程向一个越来越受人工智能加持的翻译工作流程转变所要面临的考验和磨难。
在另一个小组对话中,我们将讨论目前最受欢迎的语言数据类型:语音数据。我们将解决语音数据的来源、消除数据偏差等等。
大规模多语言模型、高质量的数据采集、人工智能翻译和其他形式的语言数据。这些都是为新世界做好准备所需的要素。地球上有近80亿人说7000多种语言。面对每天产生的大量内容,我们如何以他们各自的母语接触到所有这些人?TAUS会议计划中的所有主题都朝着这个目标努力。特别是在我们的世界准备度大赛中( World-Readiness Contest),这个问题占据了中心舞台。在短短的六分钟内,参赛公司将分享他们的战略和想法,以做好面对新世界的准备。而观众负责挑选最好的创意!
自然,会议期间与会者也会有充足的时间来建立关系网。在10月11日圣何塞希尔顿逸林酒店的开幕酒会上,您将与老朋友和同事相聚,并结识新朋友。或者在10月12日加入我们在田园诗般的 Regale Winery & Vineyards举办的独家网络晚餐,在那里您将享受美妙的景色、食物和TAUS Haus乐队的现场音乐。
(机器翻译,轻度译后编辑,仅供参考)
编辑:胡跃