数据是推动人工智能引擎运转的燃料。许多公司并未充分利用手头的非结构化数据宝库,因为他们不知道如何填满油箱。
这就是拥有处理非结构化数据工具的企业吸引投资者关注的原因。就在上个月,Salesforce 进行了一项重大收购,为其 Agentforce 平台提供动力——这只是最近对非结构化数据管理提供商的一系列投资中的一笔。
IBM watsonx的产品管理副总裁兼IBM的常驻数据专家Edward Calvesbert表示:“生成式AI提升了非结构化数据的重要性,即文档在RAG和LLM微调中以及传统分析在机器学习、商业智能和数据工程中的作用。每天生成的大多数数据都是非结构化的,这为我们提供了最重要的、全新的机会。”
我们想了解更多关于非结构化数据对人工智能的影响。因此,我们与Calvesbert和数据科学公司Unstructured的战略负责人Dave Donahue进行了交谈。Unstructured在三月完成了一轮由IBM、Nvidia和Databricks参与的4000万美元的投资。我们想听听他们对非结构化数据的重要性及其未来发展的看法。
问:实施AI时,公司非结构化数据是否比结构化数据更有价值?
Edward Calvesbert, IBM:非结构化数据——语言、图像等——是基础模型所依赖的“新”数据,可以帮助进行解读,所以这是当前的关注点。但就像结构化数据一样,非结构化数据也必须被管理——分类、质量评估、过滤PII(personal identifiable information,个人身份信息)和不良内容,以及去重——因此,使用成功的策略,许多传统结构化数据管理功能将被应用于非结构化数据。
Dave Donahue, Unstructured:非结构化数据本身并不比结构化数据更有价值,但一般来说,大型组织产生的非结构化数据是结构化数据的四倍。因此,问题是,在实施AI时,您是否希望使用更多的您的数据,尤其是人类生成的非结构化数据?答案毫无疑问应该是“是”。
问:为了使AI成功,显然需要“良好”的数据。但这在实践中是什么样的?
Calvesbert:“足够好”是一个动态目标,取决于具体用例。如果一个用于RAG(Retrieval-augmented generation,检索增强生成)的知识库想要拥有这些功能:改进语义搜索、支持问答、提供客户服务代理,那么它必须有完整、准确且最新的数据。用于微调模型的数据需要一组人工策划的指令/响应对的示例。为了分析用例,一些文档被处理为表格或图形数据库,这需要有效提取实体或值。在几乎所有情况下,数据需要在用例生命周期的背景下进行分类、过滤和管理。
Donahue:在企业或公司层面,“良好”的数据是干净的、结构化的、丰富的。这种预处理流程应尽量减少原始内容与LLM准备版本之间的信息损失。Unstructured可以让公司将其非结构化数据转化为任何类型的标准格式,并用额外的元数据丰富它。这样,企业就可以适当应对使用 LLM 时所面临的三大挑战:不与时俱进,经常编造内容,对企业的具体情况一无所知。
问:您们能否举一个案例,说明某公司坐拥非结构化数据的金矿,却不知道如何利用AI来开发它?实施AI后又有什么不同?
Calvesbert:我们与一家大型电信客户合作,刚开始,该公司提供为客户支持代理的内部知识库,缩短了客户获取答案所需的时间,提高了答案的准确性。它就像野火一样在呼叫中心内有机地蔓延开来,这时公司不得不后退一步,开始致力于管理和价格性能。在内部,我们实施了一个营销自动化用例,在这个用例中,IBM 的品牌准则和范例被摄取以生成新的营销内容,并对其进行整理,以确保质量和语气的一致性。
Donahue:我们正在与一家全球消费品公司合作,帮助他们开发新产品创意。您可能会问,“这与非结构化数据有什么关系?”好吧,以往,营销和产品团队需要几个月的时间来分析大量的销售数据、产品反馈信息和人口统计信息,以生成新想法或概念,可以用于特定市场中的终端用户测试。如果我们能将这一过程从几个月缩短到几个小时呢?如果我们能根据数据提出新的产品创意,让团队快速进行测试,会怎样?
这就是利用非结构化数据创造商业价值的力量。现在,那家消费品公司正在利用其多个品牌的数据来开发和测试新产品创意,以推向市场。
问:如果一家公司没有足够的非结构化数据,他们还能实施AI吗?他们的下一步应该是什么?
Calvesbert:每家公司都有文档——想想他们提供给新员工的入职材料——这足以开始RAG和语义搜索。
Donahue:无论是电子邮件、备忘录、内部消息平台(如Slack或Microsoft Teams)还是商业演示,公司80%的数据是非结构化的。问题是,您想用这些数据做什么?为目前进行类似数据清理工作的工程师创造效率?根据销售和营销数据开发新产品创意?AI有无数的可能性和机会。确定一个目标。确定所需的数据。从小规模开始。
问:在过去的一年中,您们是否看到数据和数据管理方面的任何有趣趋势?
Calvesbert:我认为湖仓架构和开放表格式,尤其是Iceberg,已经成为主流,并成为新数据/工作负载的主要数据管理架构。向量功能已在许多操作/分析数据库中本地提供,以便生成式AI工作负载可以融入现有应用中。我们看到,行业开始意识到,仅靠RAG不足以满足某些企业用例,如需要基于非显而易见关系(GraphRAG)进行额外情境化和从事务记录(SQL-RAG)中提高精度的用例。客户还意识到,克服在企业范围内扩展生成式AI的关键挑战是,实施一个用户授权的、尊重企业内容管理系统中现有访问控制的模型。
Donahue:我们看到,数据科学和机器学习工程团队与数据工程团队开始更紧密地合作。随着数据仓储和商业智能应用的兴起,数据工程团队在过去十年中也成长了起来,在为数据分析师和高管人员设计的SQL(Structured Query Language,结构化查询语言,是一种用于管理和操作关系型数据库的标准化编程语言)世界中,数据工程团队开展了结构化数据库,引入了商业分析流程。随着企业越来越重视LLM,人们对大量预处理数据的需求激增。然而,这些消费者往往使用Python、向量数据库和快速、一次性的用户界面。随着时间的推移,我们预计成熟的数据工程团队将越来越多地承担为生成式AI团队提供企业级数据的责任。
问:您们对2025年及以后的数据发展趋势有什么预测?
Calvesbert:我认为客户希望简化他们的数据资产,降低相关的成本和风险。为此,在工作负载方面,与单一数据库相比,多模型数据库和多引擎湖仓架构将继续获得成功,因为客户希望整合到更少数量的数据平台上。文本到SQL模型发展得非常好,在商业智能之外的广泛用例中,使用数据的门槛将会大大降低。
同样,代理的普及会将数据注入到爆炸性增长的自动化工作流中。其中一些代理工作流将彻底改变许多知识工作者的活动,创造令人兴奋的新机会。想象一下处理与客户的内部或外部对话,可以立即将对话映射到目录中的产品或CRM系统(Customer Relationship Management,简称CRM,客户关系管理)的机会记录中,还可以对进展状态和成交倾向进行自动评估。
Donahue:现代数据堆栈中,Snowflake、BigQuery和Databricks在数据仓储领域建立了“数据重力”,与此相比,我们在非结构化数据方面尚未做到这一点。由于非结构化数据的体量是结构化数据的四倍,并且每年呈指数级增长,对于下一代LLM存储解决方案来说,风险很高。关于哪种向量、图形、对象或其他类型的存储组合将占据主导地位,以及每个类别中的哪些供应商将胜出,目前尚无定论,但在未来的18到24个月内,胜负大概率会一目了然。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛
审校:章坚