7月11日,总部位于纽约的初创公司 Patronus AI 发布了 Lynx,这是一个开源模型,旨在检测和减少大型语言模型 (large language models,简称LLMs) 中的幻觉。随着各行各业都在努力提高人工智能生成内容的可靠性,这一突破可能会重塑企业的人工智能应用。
在幻觉检测任务中,Lynx 的表现优于 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3 等行业巨头,这代表着人工智能可信度的重大飞跃。Patronus AI 报告称,Lynx 在检测医疗误差方面的准确率比 GPT-4 高出 8.3%,在所有任务中的准确率比 GPT-3.5 高出 29%。
与人工智能的想象力作斗争: Lynx 如何检测和纠正 LLM 幻觉
Patronus AI 首席执行官 Anand Kannappan 在接受 VentureBeat 采访时解释了这一进展的意义。他说:“当人工智能生成虚假或误导性信息时,大型语言模型中就会出现幻觉。对于企业来说,这会带来错误的决策、错误的信息,失去客户和顾客的信任。”
Patronus AI还发布了HaluBench,这是一个在真实世界场景中评估人工智能模型忠实性的新基准。该工具的突出之处在于它包含了金融和医疗领域的特定任务,而这些领域的准确性至关重要。
Kannappan指出:“处理敏感和精确信息的行业,如金融、医疗保健、法律服务以及任何对数据准确性有严格要求的行业,都将从Lynx中受益匪浅。它能够检测并纠正幻觉,确保关键决策建立在准确数据的基础上。”
开源人工智能:Patronus AI 的广泛采用和货币化战略
将Lynx和HaluBench开源的决定可能会加速各行业采用更可靠的人工智能系统。不过,这也引发了人们对 Patronus AI 商业模式的质疑。
Kannappan谈到了这个问题,他说:“我们计划通过我们的企业解决方案来实现Lynx的盈利,这些解决方案包括可扩展的API访问、高级评估功能和工作流程,以及根据特定业务需求量身定制的集成。”这种做法符合人工智能公司在开源基础上提供优质服务的大趋势。
Lynx 的推出正值人工智能发展的关键时刻。企业在各种应用中越来越依赖 LLMs,因此迫切需要强大的评估和错误检测工具。Patronus AI 的创新可在建立对人工智能系统的信任方面发挥至关重要的作用,并有可能加速人工智能系统与关键业务流程的整合。
人工智能可靠性的未来:在自动化程度越来越高的世界中的人工监督
挑战依然存在。Kannappan 指出:“下一个重大挑战将是开发可扩展的监督机制,使人类能够有效监督和验证人工智能的输出。”这凸显了在人工智能部署中对人类专业知识的持续需求,即使像 Lynx 这样的工具也在推动自动评估的发展。
随着人工智能领域的快速发展,Patronus AI 的贡献标志着向更可靠、更值得信赖的人工智能系统迈出了重要一步。对于正在采用人工智能的复杂世界中遨游的企业领导者来说,Lynx 这样的工具在降低风险和最大限度地发挥这项变革性技术的潜力方面可能是无价之宝。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛