AI Chatbot

什么是RAG?企业管理者的通俗指南

每家尝试过用ChatGPT处理内部知识工作的企业都会遇到同一堵墙:模型不了解您的产品、规章制度、合同或业务流程。它会一本正经地给出错误答案。

RAG就是解决这个问题的架构。本文将解释它的工作原理、实际业务场景,以及如何判断您的企业是否适合引入——无需任何AI技术背景。


什么是RAG?

RAGRetrieval-Augmented Generation(检索增强生成)的缩写。这是一种AI系统设计模式,将问答步骤(生成)与知识存储步骤(检索)分离开来。

与其让语言模型凭"记忆"回答(对于专有数据来说不可靠),RAG系统会先搜索您的文档找到相关内容,再将该内容连同问题一起传递给模型。

模型的任务从"知道一切"缩减为"阅读这段文字并回答问题"。这正是语言模型擅长的任务。


RAG存在的原因:通用ChatGPT的局限

GPT-4或Claude这类标准语言模型的训练数据截止于某个日期。它从未见过:

  • 公司内部规章制度
  • 产品规格书或目录
  • 客户合同或SLA
  • 合规档案(如等保2.0相关材料、数据安全法合规记录)
  • 训练截止日期之后创建的任何文档

微调(用您的数据重新训练模型)是一种解决方案,但成本高、周期长、更新繁琐,对大多数企业知识管理需求而言属于大材小用。RAG以十分之一的成本实现九成效果,且知识库可在几分钟内更新。


RAG的工作原理:逐步拆解

flowchart TD
  A["用户提出问题"] --> B["Embedding模型将问题转换为向量"]
  B --> C["向量数据库搜索相似文档片段"]
  C --> D["检索排名靠前的N个片段"]
  D --> E["将片段作为上下文注入LLM提示词"]
  E --> F["LLM基于检索文本生成答案"]
  F --> G["将带来源引用的答案返回给用户"]

第一步 — 文档索引

在处理任何查询之前,文档(PDF、Word文件、Wiki、数据库导出)被分割成300至800个token的片段,转换为向量embedding,存储在pgvector等向量数据库中。

每个文档只需索引一次。文档更新时,仅对变更部分重新索引。

第二步 — 查询时检索

用户提问时,问题同样被转换为向量格式,向量数据库执行相似度搜索,返回最相关的5至10个片段。

这不是关键词搜索,而是语义相似度搜索——"设备停机根本原因"与"机器为什么老是停"会检索到相同的片段,即使文档中从未出现完全相同的词语。

第三步 — 生成有据可查的答案

检索到的片段作为上下文注入模型的提示词,模型读取后生成引用来源文档的答案,同时返回文档名称和页码——这是单独使用chatbot无法实现的功能。

在等保2.0合规场景中,这种可追溯性尤为重要:每个答案都能追溯到具体的原始文档。


RAG vs 微调 vs 普通提示词

方法 知识来源 更新速度 成本 适合场景
普通提示词 模型训练数据 N/A 通用问题
微调 重新训练的权重 数周至数月 文体、语调、行业术语
RAG 外部文档存储 数分钟 企业专有知识检索

对于大多数企业文档场景——内部问答、合同审查、规程查询、技术支持——RAG是正确的架构选择。


RAG在企业中的实际形态

内部知识库助手
员工用自然语言提问,系统从HR规章、IT手册、财务规程、产品文档中检索答案。无需在用友/金蝶的文档模块中手动翻找。

面向客户的产品助手
客户询问产品规格、兼容性或故障排查步骤,系统从产品手册和FAQ中检索。支持工单量下降。

合同与合规检索
法务和采购团队无需阅读每份合同即可完成检索,并获得精确的原文片段和来源引用。满足数据安全法和PIPL(个人信息保护法)对数据处理的留档要求。


RAG做不到的事情

局限性 说明
输入质量决定输出质量 低质量文档产生低质量答案
上下文窗口限制 极长文档或大量检索结果可能超出模型输入上限
无法跨全量语料库推理 模型只看到被检索的片段,而非所有文档
无实时数据(除非集成) RAG基于已索引的快照回答,实时数据需另行集成
语言不匹配 中文查询与英文文档语料库需要多语言embedding模型

simpliDoc的方案

simpliDoc是Simplico基于此架构构建的产品。它连接您现有的文档存储——SharePoint、Google Drive、ERP文档库、本地文件服务器——使用多语言embedding模型构建索引,并在需要数据主权时运行完全私有化的语言模型栈。

支持语言:中文、英语、泰语、日语

等保2.0与数据安全合规:整个处理管道可部署在您的基础设施内,文档内容不离开企业网络。同时满足PIPL对个人信息的处理要求,以及数据安全法对数据分级保护的规定。支持用友、金蝶等主流ERP系统的文档对接。

有关RAG导入的咨询
联系simpliDoc团队 → hello@simplico.net


常见问题解答

RAG代表什么?

RAG是Retrieval-Augmented Generation(检索增强生成)的缩写。这是一种将AI语言模型与外部文档来源连接起来的技术,使模型能够基于您自己的内容回答问题,而不仅仅依赖训练数据。

RAG和微调是一回事吗?

不是。微调通过您的数据修改模型权重,速度慢、成本高、更新繁琐。RAG不改变模型,而是在查询时检索相关文档。对于企业知识库,RAG更快、更便宜、更易维护。

RAG支持中文文档吗?

支持,前提是使用支持中文的多语言embedding模型。simpliDoc使用的多语言embedding模型支持ZH、EN、TH和JA,包括中文查询与英文文档的跨语言检索。

使用RAG是否需要将文档发送到云端?

不需要。RAG可以使用开源语言模型(如Llama、Mistral)和自托管向量数据库(如pgvector)完全在本地部署。对于有等保2.0、数据安全法或PIPL合规要求的客户,simpliDoc推荐并提供这种私有化部署架构。

RAG实施需要多长时间?

基础概念验证(PoC)通常2至4周即可运行。包含安全加固、认证和现有文档库集成的生产环境部署,视基础设施复杂程度通常需要6至12周。

向量数据库是什么?

向量数据库以称为embedding的高维数值表示存储文档内容。与关键词搜索不同,它能找到语义相似的内容——即使使用不同的词语表达相同含义。常见选项包括pgvector(PostgreSQL扩展)、Pinecone、Weaviate和Chroma。