PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation
继GraphRAG之后,微软又发布PIKE-RAG,主打在复杂企业场景中私域知识提取、推理和应用能力,PIKE-RAG 已在工业制造、采矿、制药等领域进行了测试,显著提升了问答准确率。报告、代码、demo均已开源,论文在末尾。
表 1:基于 RAG 系统能力的等级定义
等级 | 系统能力描述 |
L1 | L1 系统旨在提供对事实性问题的准确可靠的答案,确保基本信息检索的坚实基础。 |
L2 | L2 系统扩展了其功能,包括对事实性问题和可链接推理问题的准确可靠的响应,从而实现更复杂的多步骤检索和推理任务。 |
L3 | L3 系统通过结合提供对预测性问题的合理预测的能力,进一步增强了其功能,同时保持了在回答事实性问题和可链接推理问题方面的准确性和可靠性。 |
L4 | L4 系统能够针对创造性问题提出合理的计划或解决方案。 此外,它保留了对预测性问题提供合理预测的能力,同时对事实性问题和可链接推理问题提供准确可靠的答案。 |

首次提出了5级RAG系统能力与挑战,针对不同系统层级的技术挑战,PIKE-RAG框架都有针对性策略。以下缩写被使用:“PA”代表文件解析,“KE”代表知识抽取,“RT”代表知识检索,“KO”代表知识组织,“KR”代表以知识为中心的推理。
挑战等级表
等级 | 挑战 | 框架方案 |
L0 | • 挑战在于知识提取,因为源文档格式多样,需要复杂的文档解析技术。• 从原始、异构数据构建高质量的知识库给知识组织和整合带来了巨大的复杂性。 | |
L1 | • 对知识的理解和提取受到不当分块的阻碍,这破坏了语义连贯性,使准确检索变得复杂。• 知识检索受到嵌入模型限制的影响,在调整专业术语和别名时,会降低系统的精度。 | |
L2 | • 有效的知识提取和利用至关重要,因为分块文本通常包含相关和不相关的信息。 确保检索高质量数据对于准确生成至关重要。• 通常会忽视任务的理解和分解及其背后的基本原理,严重依赖 LLM 的能力,而忽略了支持数据的可用性。 | |
L3 | • 此级别的挑战集中在知识收集和组织上,这对于支持预测性推理至关重要。• 大型语言模型在应用专门的推理逻辑方面存在局限性,这限制了它们在预测性任务中的有效性。 | |
L4 | • 难点在于从复杂的知识库中提取连贯的逻辑原理,其中多个因素之间的相互依赖性可能导致非唯一解。• 创造性问题的开放性使推理和知识综合过程的评估变得复杂,难以量化评估答案质量。 | |

论文文件下载:点击这里