BBC 新闻总部位于伦敦,以 43 种语言进行广播–这项日常工作需要大量幕后工作,通常由研究和报道新闻的记者负责。事实上,记者们并不认为自己是翻译,他们与源材料和目标材料的关系与语言专业人员可能不同。”对转录/翻译解决方案的评估需要反映记者对输出的需求,因为他们是我们解决方案的最终用户。”BBC 新闻实验室高级研发制作人 Sevi Sariisik Tokalac 在 2023 年 11 月 28 日的一篇文章中解释道。
换句话说,除了”足够好”或”足够快”之外,技术还必须证明它能在快节奏的新闻编辑室中发挥作用。更具体地说,新闻实验室调查了后期编辑机器翻译(MT)和自动转录输出是否比没有机器翻译和自动转录辅助的翻译和转录更实用、更高效。
令人印象深刻的飞跃
Sariisik Tokalac 说,十多年来,新闻实验室一直在尝试各种转录和 MT 模型。在此期间,该小组注意到”商业和研究主导模式在质量和所覆盖语言数量方面的飞跃令人印象深刻”。
新闻实验室设计了一项实验,以确定阿拉伯语、法语、巴西葡萄牙语和西班牙语(在相关任务中与英语配对)的 MT 和转录工作中表现最佳的模型。英国广播公司(BBC)拥有庞大的团队,并为每种语言设立了多个分支机构,语言模型在这些高资源语言中的表现通常非常出色。团队根据语言技能和编辑判断力提名的评估员检查、更正和评估了约 45,000 个单词,这些单词分布在三项任务中:非英语转录、英语翻译和英语翻译。这些内容均匀地分布在各种类型中,如政治、健康、科学、经济和社会问题–所有这些都是 BBC 常规节目的标准内容。
研究人员通过许多语言模型推送内容,其中包括家喻户晓的 AWS , DeepL , Deepgram , Google , Microsoft Azure, Speechmatics 和 OpenAI的 Whisper。在离线状态下,评估人员为自己计时,并跟踪自己的修正情况,在 0-100 分的范围内为每个样本分配质量分数。
Sariisik Tokalac写道:“评估员的评分指导不是寻求完美,而是考虑他们可能合理期望的一个聪明、新鲜的毕业生开始工作实习:一篇没有重大错误但可能有一些小错误的文本,可能需要在风格上进行完善,以符合BBC的内容。”
在第二次检查中,评估员将他们的更正意见分类并用颜色标记为重大错误(可能影响意义)、小错误(需要更正才能使用)或文体改进。
“对评估人员的评分要求并不是追求完美,而是考虑他们对开始工作实习的应届毕业生的合理期望”–Sevi Sariisik Tokalac
最佳表现
BBC 新闻实验室最终根据得分最高、修改 1,000 字所需时间最少的模型进行排名,并优先考虑出现”重大错误”最少的模型。该小组的最终入围名单包括每种语言的前两个模型,Sariisik Tokalac并未公开命名。将有更多的评估人员参与进来,对更多的样本进行评估,并对这些任务中语言排名前两位的模型提供更多的反馈意见。
她补充说:”我们可能会对错误类型进行更详细的分类,并引入一种自动计算方法,”她指出,虽然人工排名与 BLEU、TER 和 COMET 等算法的排名有很大关联,但评估者之间也存在差异。MT 技术,尤其是”临近语言”技术,可将交付时间缩短约三分之一。在转录方面,这种优势更为明显,自动转录和人工校正的过程比人工转录快四倍左右。
此外,新闻实验室认为,该实验证明这些模型可用于 “真正的工作流程场景”,未来可能包括 “将世界新闻通讯社各种语言的新闻文章翻译成英文,[链接和聚类]世界新闻通讯社语言团队的文章,以衡量特定报道在多种语言中的影响规模”。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:刘煜珍