RAG检索增强生成技术入门

什么是 RAG

RAG（Retrieval-Augmented Generation，检索增强生成）是一种将信息检索与文本生成相结合的技术框架。它通过在生成回答之前先从外部知识库中检索相关信息，让大语言模型能够基于准确的、最新的知识来生成回答，有效缓解了模型的幻觉问题和知识过时问题。

大语言模型存在几个固有的局限性：

RAG 通过引入外部知识检索，较好地解决了这些问题。

一个典型的 RAG 系统包含以下组件：

将原始文档（PDF、网页、数据库等）进行清洗、分块（Chunking），转换为适合检索的文本片段。分块策略直接影响检索质量，常见的做法是按段落或固定 token 数进行切分，并保留一定的重叠区域。

使用 Embedding 模型将文本片段转换为向量表示，然后存入向量数据库（如 Chroma、Pinecone、Milvus 等）。高效的向量索引是实现快速检索的基础。

当用户提出问题时，系统先将问题转换为向量，然后在向量数据库中检索最相关的文本片段。检索策略包括：

将检索到的相关文本片段与用户问题一起提供给大语言模型，让模型基于这些上下文生成回答。

在搭建 RAG 系统时，有几个关键点需要注意：

RAG 是当前让大语言模型落地应用最重要的技术之一。它不需要重新训练模型，就能让模型利用外部知识，降低了成本并提高了回答的准确性和时效性。