理解自定义机器翻译中的BLEU分数(1/3)

分享

其他推荐

如今这种情况已经不常发生了,但我仍会时不时地在收件箱里发现一件正在成为过去的遗物的东西:一封翻译拙劣的垃圾邮件。像其他人一样,我当然不太喜欢垃圾邮件,但那些翻译糟糕的垃圾邮件确实引起了我的注意。逐字翻译对我来说就像一个拼图:我想知道我是否能把它“反向翻译”成原来的措辞。

同时,我也在想是什么或者是谁做出了这样的翻译。自动翻译已经取得了一定的成功:现在随便找一个免费的翻译服务器,其水准几乎都在平庸之上。我意识到,大声读出收件箱里最糟糕的错误的小快乐很快就会成为过去。

也就是说,这并不意味着从现在开始所有的自动翻译都是完美的。远非如此。通常,自动翻译虽然完全可以理解,但仍然有一种格格不入的感觉,尤其是阅读关于新主题的密集文本,从长远来看往往非常吃力。它需要费更大的力气,去理解文本背后的含义,抓住它的意思。自动翻译从难以读通发展到了现在的有时吃力。

调整训练数据

大型机器翻译引擎,如Google Translate、Microsoft Translator和Amazon Translate,允许客户根据他们喜欢的领域甚至他们喜欢的风格调整翻译输出。这样,定制机器翻译是下一步,使翻译更符合读者可能有的上下文期望。这里的想法是,神经机器翻译提供的基线翻译对于一般用途来说已经足够好,但通过向它提供定制的训练材料,它可以获得额外的质量,从而输出更专业的翻译。

训练材料应包含大量特定语言对的经过认可的翻译。在幕后,定制是通过对翻译模型进行完全的再训练,或者通过动态地重新调整参数来完成的,结果是翻译输出更像是“你的风格”。

TAUS坚信以这种方式提升翻译引擎的性能。作为一家数据公司,我们渴望进行建立不同训练数据集的实验,看看通过使用领域数据训练机器会有何种结果。

训练涉及以下几个步骤:

  1. 选择领域和语言对;

  2. 选择合适的训练材料;

  3. 评估训练结果。

TAUS有一个巨大的语言数据存储库,但与任何大型文本语料库一样,某些特定的语言对和领域的组合比其他组合更适合定制。基于经验,可以预估成功的机会。

为训练选择数据是一项更困难的工作。这需要你考虑你希望你选定的领域有多窄,你的数据质量应该是多少。正如您所料,缩窄训练材料的范围意味着适用性降低,但结果会更好。选择数据中与特定领域相关的部分本身就是一门艺术,并且随着神经模型的进步,这门艺术将会越来越好。

关于训练数据的质量:越多并不总是越好。训练数据的高质量和一致性优于数量。这在很大程度上比你想象的要真实。它是微生物群落的安娜·卡列尼娜原则的变体。事情可能出错的方式比事情可能正确的方式多得多。这使得质量谱的低端会遭受更多的内部不一致,所以在修剪数据时不要太保守实际上是值得的。

事实上,重点在微调。我们使用不同的指标来衡量训练数据的可靠性。这很像用给你的咖啡豆制作最好的浓缩咖啡。温度、研磨度、数量:你小心翼翼地拨入所有不同的参数,直到你找到最佳点。

      (机器翻译,轻度译后编辑,仅供参考)

       编辑:胡跃

原文链接

Was it helpful ?