刘坚:火山翻译引领机器翻译新潮流

刘坚经理专访

刘坚字节跳动火山引擎生态伙伴产品经理(机器翻译方向),主要负责火山翻译算法的商业化和企业级应用。本科和硕士毕业于北京外国语大学,英语专业八级,俄语专业八级, 5AI技术商业化经验,加入火山翻译团队后,参与了火山同传、火山翻译Studio等多项本地化及翻译相关产品的设计和研发工作,完成包括“村上隆中国直播首秀”、 “2021年北京智源大会等数场线上线下会议的同传字幕支持。

 

01

专访记者李丹:

刘总您好,我是来自翻译技术教育与研究公众平台的李丹,非常荣幸邀请您进行此次访谈。此前我们了解到您本科毕业于俄语专业,硕士攻读区域学,能否分享一下您是如何逐步从学生身份转变为机器翻译领域的产品经理的呢?希望您能为有意进入此领域的学生们提供一些宝贵建议?

A

刘坚经理:

首先,我想强调实习的重要性,它让我有机会观察并试验自己是否适合某些领域和岗位。我起步于内容运营,利用我所学的外语知识进行海外内容收集,并负责公众号相关工作。这段经历让我对互联网行业有了初步的认知和了解。之后,我开始探索其他的工作方向,如产品运营和商务岗位等。有幸进入大型互联网公司实习后,我发现,外语人在这些岗位上是可以发挥自身专业优势的。当时我主要负责国际商务岗,包括日常工作和产品推销。在产品商业化的过程中,我深入了解产品细节,尝试构建特定的商业模式,积累了丰富的实战经验。这三年的工作经历让我体验了如何从无到有构建产品后来结合自身外语背景,我开始关注机器翻译,最终加入了字节跳动火山翻译团队

如果打算进入互联网行业,我建议大家不要把互联网视为一个大一统的行业。互联网公司的类型和领域繁多,像BAT、字节、美团、小米等大家熟知的互联网公司,他们在互联网领域中的专注点各不相同,有的专注于游戏,有的专注于硬件,还有的提供搜索引擎、社交软件或电商服务。由于类型和领域差异巨大,各个公司的产品运营岗位差别也很大。因此,我建议在决定进入互联网公司之前,应该对领域进行细分研究,或者通过实习来深入了解互联网行业。

另外,我鼓励大家不要放弃任何机会,尽可能利用调研和面试。面试是一个很好的机会,可以让你深入了解企业或业务负责人的整体状况。无论你的学历如何,只要你能投递简历,对方愿意跟你面试,那就说明他们是真的有需求,有职位需要填补。这也意味着这家公司的业务发展得不错。所以,我们要抓住每一次机会,尤其是面试机会。写一份好的简历,表现出对岗位的深入研究和热情,这都是成功的关键。

 

02

专访记者李丹:

我们了解到您从事机器翻译技术商业化应用多年,具有非常丰富的经验。您能具体分享下机器翻译技术有哪些商业化的应用吗?您参与建立了火山翻译商业产品,您能具体介绍一下此产品的主要功能和特色吗?它有哪些突出的优势?

A

刘坚经理:

机器翻译技术的商业化应用非常广泛。自我加入字节跳动以来,我亲身参与了从零到一的机器翻译产品线的梳理和落地。我们现有的产品线中,基于机器翻译模型的应用形态多种多样。按照模态来划分,大致可以分为以下几类:

 

1文本翻译:这是最基础的应用,包括提供API供其他程序调用,以及开发网页版翻译器、浏览器插件、小程序等。此外,如果我们把文本翻译模型部署到硬件设备上,还可以开发出各种硬件设备。

2视频翻译:这类应用主要包括音视频翻译和图片翻译。音视频翻译一般会采用语音识别技术,然后通过断句和翻译,实现视频或音频文件的批量翻译。图片翻译则是结合OCR文本识别和翻译,将原文贴回图片上。

3实时语音翻译:这类应用主要针对实时音频流,如电话或视频聊天等场景。实现这类应用需要流式语音识别和实时翻译,其技术难度较大,不能简单地串联两个接口实现。

4实时视频翻译:此类应用主要用于直播翻译,实时将音频和画面进行译文输出。这类应用也可以部署到小程序中,实现拍照翻译或电话翻译等场景。同时,音视频翻译也可以部署到硬件设备中,比如实时随身翻译机。这些都是基于机器翻译技术的主要应用形态。

接着,我们来谈谈火山翻译。火山翻译是我们的主打产品,主要包括网页版翻译、Chrome插件以及小程序。火山翻译的优势主要有三点:

 

1出色的翻译效果:火山翻译基于字节跳动的自有设备进行翻译,因此在日常场景的翻译效率和效果上都表现优秀。我们的底层数据主要来源于泛娱乐和短视频场景,因此翻译结果更接近人的口语表达。

2强大的算法团队:我们拥有国内规模最大的机器翻译算法团队之一,因此能够针对业务应用中的问题进行深度优化。

3丰富的领域涉猎:我们自身涉及的领域广泛,包括医疗、房产、电商、游戏、金融等,因此能够针对这些特定场景进行翻译优化。我们是最早推出垂类翻译模型的公司之一,因此在特定领域的翻译效果上具有优势。

火山翻译的发展和进步离不开我们整个团队的努力,我们始终坚信,机器翻译技术的发展将会对人们的生活产生深远的影响。

 

03
专访记者李丹:
您的团队提出了“影院级字幕”的视频翻译解决方案,您能详细解释一下这种方案的技术原理和应用场景吗?相比当前其他视频翻译技术,您团队的解决方案有哪些创新之处呢?

A

刘坚经理:

我们的“影院级字幕”视频翻译解决方案是一项独家的专利技术。它的出发点源于公司内部的实际需求,而非仅仅为了研发翻译产品而猜测的需求。这种出发点使得我们的解决方案在业务场景中具有真实的价值。

这项技术主要适用于直播领域。对于预录制的视频,一句一句的翻译方式可能没有太大的价值。然而,对于直播或者实时会议这种场景,传统的实时翻译方式——逐字识别并同步出译文,效果并不理想。主要的问题在于,译文的出现往往会落后于发言人的讲话,导致观众的理解与实际内容出现错位。为了解决这个问题,我们提出了“影院级字幕”这种解决方案。

具体来说,我们的翻译系统在接收到直播信号后,会将直播信号进行缓存。在缓存的同时,我们将音频送给语音识别引擎进行识别,然后进行翻译。然后在一定的时间窗口后,如十秒或二十秒,我们将已翻译好的字幕与缓存的画面同步发送给下游观众。这样,虽然增加了一定的延时,但观众看到的将是与画面同步的字幕,提升了观看体验。不仅如此,我们的这个解决方案还有一个额外的优势。由于从接收到画面到最终推送给用户观看,我们的系统有一段缓存时间,语音识别和翻译工作都可以在这段时间内完成。这就为我们提供了机会,在推送之前对字幕进行二次优化,进一步提升了翻译的质量。

以上就是我们的“影院级字幕”视频翻译解决方案的原理和应用场景,以及它相比其他翻译技术的创新之处。

 

04

专访记者李丹:

您所在的团队实现了直播内容的机器翻译,您能谈谈直播翻译的主要技术难点是什么吗?

A

刘坚经理:

直播翻译的实现固然存在诸多技术难点。首先,对于大多数互联网公司的机器翻译团队来说,人员储备主要偏向算法以及与算法相关的工程开发。客户端前端及应用级的工程团队人力储备较为有限。这是因为,除非参与到业务的核心部分,否则这类人才在算法团队中可能会闲置,没有太多的工作可做,也难以实现个人成长。其次,机器翻译并不是大型公司主要的盈利业务,也不是那种备受瞩目的业务。这意味着公司对这个领域的投入可能不会太大。在孵化业务的初期,我们可能会在资源上遇到一些瓶颈,因为我们没有足够的收入来支持大规模的资源投入。这也就意味着我们在解决问题的时候,资源协调可能会成为一个棘手的问题。再者,对于直播翻译这个任务,我们需要处理的流媒体协议(如RTMP等)涉及到的技术实际上是跨领域的。虽然我们可以做好翻译部分,但是这种跨领域的技术积累仍然需要我们去解决。在大公司里,每个部门都有自己的目标和责任,想要横向拉动其他部门的资源来共同完成任务难度颇大。

 

05
专访记者李丹:
对于技术难点,您的解决思路是什么呢?在直播翻译过程中如何确保翻译的实时性并进行质量控制呢?

A

刘坚经理:

对于你的问题,我认为其答案与大多数挑战的解决方式相似:自我学习并寻求外部资源。你不能完全依靠自己来解决问题,因为它涉及到专业领域,不是仅凭努力就能解决的。但如果你自己不努力,也是无法解决的。举个例子,我们早些时候做过一期村上龙的直播,那个时候,我们的基础设施非常弱,甚至对这个项目能否完成都没有把握。当时甲方提出一个需求,希望实现集聚的直播。但市面上并没有这样的解决方案,能做到这一点的可能只有我们。我们申请了这个方案的专利,因为我还没看到其他公司有类似的方案。所以,你需要自己去调研。别人可能会帮你分析几分钟,十几分钟,但他们不可能真正有能力和动力去针对你的场景进行研究,因为这不是他们的工作。我们需要发挥逻辑思考能力去推理。恰好我高中的背景是理科,我选择互联网的原因是我是计算机爱好者。因此,我对这个领域有一定的敏感度,能理解他们的底层技术是怎么运作的。在这个过程中,就像是吃百家饭一样,从各方面学习,逐渐掌握了这个领域的一些框架和基本原理。然后基于这个基础,寻求更有针对性的资源。例如,我们如何解决在直播中对于上游的RTMP流的分离?或者是通过硬件的方式实现?这需要我们对直播流协议的技术进行了解。在这个过程中,我在公司内部找了三四拨人进行协助,然后逐渐提升技术积累。从最初有这个想法到真正实现,经历了半年的时间,再到真正的产品化、系统化的落地,一共用了大约两年的时间,从2020年8月份开始,直到2021年12月份才完成。

 

06
专访记者李丹:
您认为AGI会对机器翻译技术的发展带来哪些影响呢?机器翻译未来的发展趋势是怎样的?有哪些值得关注的新方向?

A

刘坚经理:

首先,让我们谈谈机器翻译未来的发展趋势。机器翻译作为有具体应用场景的领域,有很大的发展机会。特别是在大规模线上环境和实时交流中,人工翻译在效率上无法满足需求。这样的场景对于机器翻译的需求非常大,例如在线聊天系统或者游戏内玩家间的跨语言交流。在未来,我预见人工翻译和机器翻译会逐渐融合。高端的人工翻译,如同声传译或专业研究,还会继续存在。但是日常的翻译工作可能会有所转变。外语专家将协助大型的翻译机器翻译公司去开发更强大的翻译系统。这也将极大地释放他们的专业潜能并提升工作效率。就我看,一个行业的发展周期大约在三到五年。我们现在使用的机器翻译技术基于2015年谷歌的“Attention is all you need”论文,这代表了机器翻译的上一代技术。从这个技术在2015-2016年问世后,我们熟知的机器翻译应用就如雨后春笋般出现。我预计这一代的机器翻译技术在2020年左右达到饱和,开始进入内卷状态。在这个阶段,对翻译质量的要求会提高。然而,就在这时,新一代的机器翻译技术如GPT-3和GPT-4等开始崭露头角。因此,我认为这代机器翻译的竞争其实没有真正展开,就已经进入了下一代。在增长期阶段,我注意到的现象主要出现在2016年至2019年间,包括大家对技术的关注和应用。以机器翻译系统为例,当我们在2017年和2018年讨论这个话题时,一般情况下,客户并不会过于关心翻译的质量,是否存在错误(也就是”bad case”)对他们来说并不重要。以专利局为例,他们需要审核大量的海外资料,这些资料需要进行正确的翻译,但人工进行这项工作的人力和时间成本太高。因此他们需要一个能满足需求的系统。在这种情况下,只要翻译质量不是极差,他们就能接受。但是到了2020年,我发现客户开始要求我们做得更好,这就意味着我们需要面对更大的挑战。

我想强调的一点是,我认为外语专家的工作将会帮助我们生产更优质的数据,在GPT时代,他们的工作将会变得更有价值。因为当你的能力扩大数百倍后,你的工作效率将会有一个质的提升,相比于人类的翻译能力,它会更有效率。我预测的一个未来趋势是,AI和生成式系统会对我们产生明显影响。因为这类模型的优点在于它们不再依赖传统的结构,并且对双语数据的需求大大降低,同时对单语数据的使用效率变得更高。因此,这类模型生成的译文通常更自然。举个例子,如果我用机器翻译系统翻译”China and US brothers”,我可以翻译成”中美亲如手足”,也可以翻译成”中美是兄弟”。有些人可能认为前者过于主观,而后者过于机械。作为机器翻译系统的开发者,我更倾向于后者,至少它能满足大多数人的需求。但在AI时代,我们可以通过GPT提供更个性化的服务,这将大大降低外语专家优化模型的成本。

原来的翻译链条是这样的:作者创作内容,然后由外语专家把它标注成双语数据,再由算法工程师训练模型并部署服务。在这个过程中,外语专家不能参与到数据和模型的转化过程中,而这一步在商业应用中是最重要的。但在AI时代,由于单语数据的数量和参数的增长,对双语数据的需求实际上降低了。在这个时候,我们可以利用AI来帮助我们制定更优质的翻译方案,我认为这是一个新的趋势,也是外语专家的一个新机会。

– END –


专访记者:李丹

推送编辑:段明贵

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注