探索 TAUS 机器学习工程师 Lisa Vasileva 从专业翻译转入自然语言处理 (NLP) 领域的精彩历程。
Lisa Vasileva 在 TAUS 担任机器学习工程师。作为阿姆斯特丹自由大学人类语言技术(HLT)人文研究硕士课程的一部分,她于 2020 年作为实习生加入该公司。她的专业翻译背景以及向自然语言处理(NLP)领域的转变,不仅巧合地反映了 TAUS 从翻译资源中心到今天的数据公司的发展历程。随着人工智能在翻译领域的应用越来越广泛,丽莎的经历也为许多其他语言专业人士提供了一条职业道路。我们请丽莎谈谈她的 NLP 之旅,更具体地说说她最近对 TAUS Estimate API 所做的贡献。是什么让您进入翻译行业的?我一直很喜欢学习外语,因此我决定学习语言学并主修翻译研究,因为这似乎很好地应用了我的兴趣和能力。毕业后,我加入了一家本地化公司,从见习翻译做起,一直做到主笔翻译和审校。我认为这个选择确实是一个适合我的职业–我喜欢翻译,在决定探索其他职业机会之前,我在这个行业工作了近 6 年。是什么促使您决定在阿姆斯特丹 VU 学习人类语言技术?在我的翻译工作中,我从另一个角度了解了机器翻译(MT):我不仅是一名用户和消费者,也是一名评估者和译后编辑。这段经历让我更深入地了解了 MT 引擎是如何构建和改进的,并将我带入了更广阔的 NLP 领域。此后我开始考虑从事 NLP 方面的工作,但常常觉得这个领域的工作与我的背景不符。弗吉尼亚大学的人类语言技术( HLT) 硕士课程开设了 NLP 课程,欢迎有语言学背景的人报读–这对我来说似乎是最合适(即使不是完美)的组合,所以我申请了。您是如何找到 TAUS 的?跟我们讲讲您的实习主题和经历。TAUS 参加了为 HLT 项目学生举办的年度见面会。在该活动中,企业前来介绍实习和就业机会,而学生则了解未来的工作和紧缺的工作概况。TAUS 看起来是将我在翻译方面的经验和我在 NLP 方面的新技能结合起来的好地方,因为他们正在通过使用更好的数据和数据解决方案帮助公司改进 MT 引擎。我的实习项目是在神经机器翻译( NMT) 框架下自动检测机器生成和人工生成的文本,虽然与公司业务无关,但我认识了公司团队,了解了他们的业务活动和目标,所以当公司提出让我在实习结束后全职工作时,我很高兴地留了下来。您目前在 TAUS 担任什么职务?请介绍一下您最近参与的一些项目。我是一名机器学习工程师,负责为内部应用和面向客户的项目构建以 自然语言处理(NLP) 为重点的解决方案。最近,我参与了机器翻译质量评估 (MTQE) 产品的开发,我非常喜欢这项工作。MTQE 系统每年都在不断改进,WMT 质量评估共享任务的成果就是证明。然而,在性能不断提高的同时,系统也变得越来越复杂,可解释性也越来越低。现在,质量预测越来越准确,业界似乎需要更好地了解预测背后的原因:哪些方面会导致较低的评分?怎样才能获得更高的分数?我与 TAUS 更广泛的工程和数据团队一起,一直在研究如何通过在 MTQE 预测中添加玻璃箱功能,使 MTQE 的工作机制更易于解释。其中一个功能是揭示 MT 输出是否在语法、流畅性或其他语言方面存在不足。目前,该功能作为 MTQE 的补充指标 – LinguisticQE 提供。这是一个单独的分数,旨在评估 MT 输出是否语法正确、流畅和自然。目前,它适用于部分语言对,我们正在努力扩大语言覆盖范围,并将其纳入我们的通用 MTQE 产品中。作为一名机器学习( ML) 工程师,您对新职业的哪些方面感到特别兴奋?在更高的层面上,NLP 技术能够以一种有意义的方式解决许多问题和挑战,这让我感到非常兴奋和激动。NLP 工具和技术为许多应用提供了动力,其中既有 “直接 “衍生的应用,如自动完成、拼写纠正和写作工具,也有间接应用,如偏见检测和缓解、事实核查和仇恨言论检测。在 TAUS 的工作中,我可以看到我们如何通过 MTQE 解决方案和领域适应性的不断改进使机器翻译更加可靠,从而继续使机器翻译更好、更容易为公司和个人所用。现在,在翻译领域,人机对话是个大问题。您如何看待人类翻译的未来?这个问题很难回答!尽管 MT 在过去 10 年中取得了惊人的进步,但我认为翻译作为一种职业不会很快消失。我甚至可以大胆地说,只有当我们达到真正的通用人工智能时,MT 才能完全取代人类翻译。(社会上有些人认为,如果我们不小心的话,这种情况可能很快就会发生!)。这听起来可能与我之前说过的话有矛盾,所以我想强调一下:MT 和 NLP 的进步在很多方面简化了翻译工作。在我看来,译员可以提高工作效率,将更多时间花在真正有创造性的工作上,减少花在 “无聊 “任务上的时间,比如语言质量审核(LQA)(效率和准确性都在提高)或译后编辑(由于领域适应性而变得更容易管理)。在我看来,译员的角色和技能正在发生转变,但不会消失或被取代。对于具有语言学/人文学科背景并有兴趣探索NLP领域的人,您有什么建议?如何开始?根据我的经验,NLP 是一个真正的跨学科领域,学科专业知识可以为该领域做出巨大贡献。构建 NLP 工具和系统需要技术技能和知识,但评估这些工具和系统并将其性能从 “够用 “提升到 “卓越”,则需要越来越多的领域内专业知识。由于我是语言学专业出身,所以我知道语言学知识不仅在创建系统时最有帮助,在评估系统时也是如此。在更为主流的领域和资源丰富的语对中,MT 已经达到了充分性和准确性始终合理的性能水平,我们正着手改进流畅性、可读性和格式正确性等方面,而这些方面是主观的,更难评估。在谷歌研究中心的一篇关于 “有监督和无监督 MT 输出之间的系统性差异 “的论文中,使用了一种以语言学为导向的自动度量方法,通过对人工翻译和机器翻译之间的结构相似性进行精心设计的评估,对流畅性和自然度的各个方面进行量化。在我看来,该指标是一个很好的例子,说明了如何将实用和理论语言学工具集融入 NLP 问题:将语言间结构差异和翻译质量标准的知识与 NLP 工具相结合,提取必要的信息来模拟这些结构差异,并对结果进行有意义的解释。通过这种方式证实了关于无监督 MT 和有监督 MT 之间文体差异的假设,从而进一步改进了 MT 的流畅性、预期文体风格和可读性。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:胡跃