一个新的首字母缩写词正在语言行业逐渐流行起来: 检索增强生成(Retrieval Augmented Generation),又称 RAG,是一种利用提示来指导 大型语言模型 (LLMs) 与知识、数据和上下文相结合。
换句话说,RAG 是一种复杂的方法,可以在响应查询时找到更多相关内容。
如果客户或 语言服务提供者 (语言服务提供商(LSP)拥有 翻译管理系统翻译记忆库(TM)、术语库、翻译文件和一系列元数据。 这些数据通常非常干净、结构合理,并经过人类专家的验证。
但是,这些客户和 LSP 很少对现成的 LLM 的结果感到满意,因为这些 LLM 缺乏内部知识,如首选术语和语气。
在 2024 年 6 月远程 SlatorCon, Roeland Hofkens首席产品和技术官 语言线LanguageWire解释说,对于这些公司来说,建立一个新的、定制的LLM是非常困难和昂贵的;对一个基础模型进行全面的微调或持续的训练仍然具有挑战性,而且成本高昂,很难根据不断变化的数据进行维护。
因此,LanguageWire 开始利用客户的语言资产来建立一个自动化的 RAG 管道,以支持更好的用户体验。
标准的 RAG 流程首先通过查看原始提示来分析用户的意图。 然后,系统会搜索可能与该提示相关的数据(包括文档、数据库和其他格式)。 系统会识别匹配的片段,检索文本,并使用这些文本创建更丰富的提示。
这个增强的提示将所有数据拼接在一起,包含了更多的业务信息。 当输入到 LLM 时,它应该会返回更相关的回复。
编辑工具的演变
LanguageWire 在现实世界中的应用是一款内容编辑助手,用户界面友好,强调自动化。 该管道已经经历了几次迭代。
霍夫肯斯解释说,第一种方法使用词汇表和术语库作为数据源。 这些数据存储在一个矢量数据库中,通过语义搜索进行访问,语义搜索可以检测到与提示语含义相似的文本片段。 我们的想法是从搜索结果中检索出相关的片段和术语,然后使用一个模板,利用这些结果建立一个新的、经过改进的提示。
“当我们找到确实相关的片段和内容时,它们并没有在提示中提供足够的上下文,因为片段往往比较短。 它是一个句子或句子的一部分,有时是单个词或类似的东西,”Hofkens 说。 “这不足以真正指导法学硕士取得好成绩。 因此,这无疑是令人失望的。
新架构用 “内容记忆”(客户发送给 LSP 的文件)取代了 TM。 这些文件可能包括 Word、PowerPoint、XML 和其他文件类型。 内容记忆的吸引力在于,它们包含更多用于语义搜索的单词,例如,与简单的片段相比,一个段落或更高层次的内容。
将这些上下文 “块 “放入数据库,然后再放入矢量数据库,就能为语义搜索提供更大的信息块,进而产生更高质量的补全。
当 LanguageWire 注意到较大的语块(即包含较多文本的语块)有助于搜索识别更多语义相似性时,就采用了第三层架构。
矢量数据库执行语义搜索,并根据相似度对结果进行排序。 然后,系统识别出 “顶级 “语块,并将其发送给 LLM 进行摘要,将其压缩成一个较小的文本集,其中仍包含所有相关关键词,并符合最终提示。 然后将改进后的提示插入,生成最终输出。
质量飞跃
Hofkens 补充说:”这种多步骤 RAG 方法使用 LLM 对 RAG 本身进行改进,”使我们的质量又有了一次飞跃,因为我们能够自动生成更适合 LLM 的更好提示。
该产品目前处于测试阶段,LanguageWire 计划于 2024 年 9 月全面公开发布。
不过,即使到那时,也可能会有重大变化。 “霍夫肯斯指出:”[RAG]是一个非常非常活跃的研究领域。 目前的研究主要集中在简单、少量的方法上,根据翻译工具书中的类似翻译来制作提示。
目前,超快和以 MT 为重点的翻译模型比 LLM 更适合翻译,但霍夫肯斯预计,限制 LLM 的速度和成本劣势将很快消失。
令人难以置信的硬件即将面世
“霍夫肯斯说:”现在有一些令人难以置信的硬件即将面世,它们将加快机器翻译的速度,并大幅降低成本。 “所以,你知道,我们应该尝试那些可能带来更好机器翻译的技术。
例如,上下文窗口最初相当小,但现在已经扩大了,双子座现在有 100 万个标记–足够在一个提示中容纳 1,500 页文本的 “空间”。 但 RAG 仍然具有优势,特别是在运营成本、召回率和精确度方面。
目前正在使用 LLM 来评估 RAG 所反馈的信息,以评估这些信息是可以继续使用,还是需要进行新一轮的 RAG。
除了技术之外,霍夫肯斯还提醒与会者,与客户的关系对于特定管道或系统的成功至关重要。
“我们并不掌握客户的所有信息。 我们拥有他们发送给我们的翻译内容,而这些内容最终都会出现在 TMS 中。 因此,这是一个非常好的多语言数据集,但并不能涵盖所有内容,”霍夫肯斯说。 “基本上,你需要用这些不同的数据集组成你的 RAG 管道。
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘煜珍