2024KDD挑战任务,GPT-4仅得40分,Meta发布最新RAG评价基准

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

作者 | Axe_越
众所周知,“要想富,先修路”,经常挖路的同学应该知道,要想修好一条路,首先就必须搞清楚关于道路质量的统一验收标准,否则,“我怎么知道我这条路能不能走通呢”?

对于AI领域来说,也同样如此。

还记得一年多以前,当第一批吃螃蟹的大佬们将检索增强生成(Retrieval-Augmented Generation,RAG)与LLM结合之后,由于补齐了LLM知识不足的短板,LLM立刻在各个领域的应用方面都迸发出了更大的潜力。

如今,RAG的范式已不再局限于将外部知识作为上下文补充的最传统范式,各种“联合训练”,“自我反思”,“前瞻性主动检索”方案百花齐放。然而时至今日,对于RAG对LLM的增强效果到底怎么样,仍然缺乏一个统一的验收标准。

为填补这一空缺,Meta最近发布了一套RAG评测基准,或许出乎大家的意料,哪怕是被大家公认最强的GPT-4在加上RAG之后,也仅仅只能勉强飘过40分(看了很多遍确认是百分制)!在LLM+RAG这条道路上,实际上我们还有太多值得继续探索和优化的事情。

论文标题:
CRAG – Comprehensive RAG Benchmark

论文链接:
https://arxiv.org/pdf/2406.04744

自2022年底横空出世,LLM已经极大地改变了NLP领域的格局,特别是在问答任务中,它们能够处理复杂的查询并生成相关的答案。然而,LLM在生成答案时存在较为明显的“幻觉”问题,即它们可能会产生缺乏事实依据或与给定上下文不相关的答案,而这种现象在LLM涉及到不熟悉的知识或未及时更新的知识时尤为明显。

为了解决LLM的这一缺陷,检索增强生成(RAG)技术被提出,RAG系统在接收到问题后,会搜索外部信息源以检索相关信息,并据此提供有依据的答案,从而极大缓解了LLM的“幻觉”问题。

尽管如此,现有的RAG评测数据集似乎并没有充分表现出现实世界问答任务的多样性和动态性(如下图所示)。例如,一些传统问答(Question-Answering)基准数据集虽然在过去十年中推动了QA的发展,但它们并不完全适合当前RAG面临的挑战。

因此,为推动RAG领域的研究,需要构建一个全面的基准测试数据集。这个基准测试需要能够反映真实用例;包含多样化的实例类型;便于理解不同模型的性能差异;能可靠评估模型性能;并且其场景和数据不会迅速过时,能够随时间更新和改进。本文将这些特性概括凝练为五个关键特征,包括:真实性、丰富性、洞察力、可靠性和持久性。这些特征有助于确保基准测试能够有效地评估和提升QA系统的性能。

RAG QA系统接收一个问题(Q)作为输入,并返回一个答案(A)。这个答案是由LLM根据从外部源检索到的信息或模型内部知识生成的,目的是为问题提供有用的信息,同时避免引入任何幻觉内容。

本文设计了三个任务来测试RAG的不同组成部分。这三个任务共享相同的QA对集合,但它们在检索打开方式上有所不同。

发表评论