全球交付网络 (GDN) 是Smartling产品组合中的独特产品。作为网络翻译代理,GDN为客户的网站提供实时支持、接收流量、生成翻译响应,并将其直接提供给最终用户。
由于其在本地化基础设施和流量中的核心作用,GDN作为客户网络流量的洞察力和分析来源也是非常强大的。通过该产品,Smartling可以对网络内容世界的使用模式和总体趋势进行宏观分析。
最近,我们在这些数据中发现了一些有趣的东西。
我们注意到大语言模机器人在不断扫描我们客户的本地化网站。据推测,这是为了挖掘网站内容,进一步完善自己的基础模型。
这是一个全面的趋势,每种类型和规模的客户都会受到影响。在不涉及这些内容的合法性、道德性或所有权的情况下,我们会立即意识到这些抓取行为可能会造成互联网回音室。
培训数据污染及后果
随着越来越多的公司采用MT优先或MT优先的方法来处理其网站内容,再加上最近有了大语言模型作为翻译提供商,大语言模型可能很快就会发现自己在不知不觉中“自食其果”。
当本地语言译员的训练数据集与来自本地语言译员的翻译内容交织在一起时,会对本地语言译员的质量和效率产生什么影响?
大语言模型依靠互联网上大量免费提供的数字内容(无论是报纸文章、学术期刊、博客文章还是扫描书籍)来积累足够的内容,以增加预训练模型的规模和复杂性,从而提供类似人类的生成能力。然而,如果正在摄取的内容中有相当一部分是由 LLMs 独自创建的,而没有任何来自人类反馈的强化学习,那么它们在输出的质量和准确性方面是否会开始出现偏差?反馈回路是否会形成某种人工智能模式,最终传播并改变整个语言的结构和语调?
虽然很难估计其影响,但由于我们正处于这场人工智能生成革命的初期,我们看到了大语言模型提供商所使用的数据收集过程中可能存在的隐患。
知识产权和价值问题
一些客户要求我们暂时阻止 LLM 机器人访问他们的任何翻译内容。
识别所有属于机器人的传入流量是不可能的,因为我们依赖于它们对声明其来源和目的的 User-Agent 标头的正确使用。许多不法刮擦机器人不仅会隐藏自己的目的,还会积极尝试伪装自己,混入任何公共网站所看到的一般流量流中。
未来过滤这种 “回音室 “效应的一种可能方法是,法律硕士与内容提供商合作开发某种水印,以识别法律硕士生成的内容,从而对其进行适当分类和处理。这种类型的水印很可能会成为一种需求,以减轻虚假信息、知识产权盗窃和其他不良行为者可能表现出的反社会行为的影响。
此外,那些不介意或有兴趣让 LLM 抓取其数据的公司有朝一日可能会选择通过出售 LLM 抓取器的访问权限来实现其内容的货币化。这可能会成为一项利润丰厚的副业,可以为人类生成的内容支付协商好的价值。内容制作者已经不断对 LLM 提起诉讼,试图重新获得对其版权材料的控制权。
我们能做些什么?
作为翻译代理的提供商,Smartling 通常不对翻译所需外的客户流量进行监控或修改。如果不进入客户的业务内部,我们如何能安全地决定哪些流量或内容应在本地化网站上提供?
不过,我们有责任提醒客户注意可能影响他们的趋势,我们也确实这样做了。LLM 搜索网站内容并不是什么秘密。尽管如此,许多公司可能会惊讶地发现这种情况正在他们身上发生,他们可能会在不知情的情况下参与到这些活动中,而这些活动给他们带来的好处很少,却为 LLM 带来了无尽的价值。
在机器翻译领域,“用人工智能帮助人工智能 “并不是什么新奇的想法。当特定客户、领域或长尾语言数据稀缺时,采用数据扩充技术并不罕见,例如网络爬行类似网站、反向翻译或通过创建略有不同的源语言和目标语言变体来制造数据。
不过,任何依赖模型输出的人都必须了解这些方法的利弊。在大多数情况下,此类技术只能逐步提高模型质量。归根结底,它们并不能取代机器学习的基本格言—对标记良好的相关数据的需求。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:张媛媛