做网站功能备案网站管理系统-兰州市网站建设公司-Seo优化

做网站功能,备案网站管理系统,网站开发技术合同,硬件开发网站#x1f34b;#x1f34b;AI学习#x1f34b;#x1f34b;#x1f525;系列专栏#xff1a; #x1f451;哲学语录: 用力所能及#xff0c;改变世界。 #x1f496;如果觉得博主的文章还不错的话#xff0c;请点赞#x1f44d;收藏⭐️留言#x1f4dd;支持一下博主…AI学习系列专栏哲学语录: 用力所能及改变世界。如果觉得博主的文章还不错的话请点赞收藏⭐️留言支持一下博主哦RAG(检索增强生成)技术结合检索与生成模型解决大模型知识局限性和滞后性问题。文章详细介绍了RAG面临的挑战、三大范式(Naive/Advanced/Modular RAG)、工程实践架构及优化策略包括知识切片、索引优化、query改写、多路召回和后置处理等关键技术为企业构建高效知识检索系统提供全面解决方案。一、RAG的背景介绍随着ChatGPT的兴起大语言模型再次走进人们的视野其在NLP领域表现出的语言识别、理解以及推理能力令人惊叹。越来越多的行业开始探索大语言模型的应用比如政务、医疗、交通、导购等行业。通义系列、GPT系列、LLama系列等模型在语言交互场景下表现十分抢眼。以Gemini为代表这类大模型甚至发展出了视觉和听觉朝着智能体的方向演化。他们在多个指标上展现的能力甚至已经超过了人类。然而大型语言模型也存在诸多不足知识的局限性模型知识的广度获取严重依赖于训练数据集的广度目前市面上大多数的大模型的训练集来源于网络公开数据集对于一些内部数据、特定领域或高度专业化的知识无从学习。知识的滞后性模型知识的获取是通过使用训练数据集训练获取的模型训练后产生的一些新知识模型是无法学习的而大模型训练成本极高不可能经常为了弥补知识而进行模型训练。幻觉问题所有的AI模型的底层原理都是基于数学概率其模型输出实质上是一系列数值运算大模型也不例外所以它有时候会一本正经地胡说八道尤其是在大模型自身不具备某一方面的知识或不擅长的场景。而这种幻觉问题的区分是比较困难的因为它要求使用者自身具备相应领域的知识。数据安全性对于企业来说数据安全至关重要没有企业愿意承担数据泄露的风险将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案不得不在数据安全和效果方面进行取舍。为了解决纯参数化模型的局限语言模型可以采取半参数化方法将非参数化的语料库数据库与参数化模型相结合。这种方法被称为RAGRetrieval-Augmented Generation。二、RAG的挑战RAG通过检索现有的大量知识结合强大的生成模型为复杂的问答、文本摘要和生成任务带来了全新的解决方案。然而尽管RAG有其独特的优势但在实践过程中也遭遇了多个挑战。2.1 数据质量差导致检索效果差在RAG模型中检索阶段的输出直接影响到生成阶段的输入和最终的输出质量。如果RAG数据库中存在大量的错误信息并被检索这可能引导模型走向错误的方向即使优化检索阶段做大量的工作可能对结果的影响也微乎其微。2.2 数据向量化的信息损失为了实现高效的文档检索通常需要将原始的文本数据转化为数值向量这一过程又称为数据向量化。数据向量化的目的是将文本数据映射到一个低维的向量空间中使得语义相似的文本在向量空间中的距离较近而语义不相似的文本在向量空间中的距离较远。然而数据向量化也会导致一定程度的信息损失因为文本数据的复杂性和多样性很难用有限的向量来完全表达。因此数据向量化可能会忽略一些文本数据的细节和特征从而影响文档检索的准确性。2.3 语义搜索的不准确在RAG中语义搜索是指根据用户的问题从文档集合中检索出与问题语义最相关的文档这一过程又称为数据召回。语义搜索的难点在于如何理解用户的问题和文档的语义以及如何衡量问题和文档之间的语义相似度。目前语义搜索的主流方法是基于数据向量化的结果利用向量空间中的距离或相似度来度量语义相似度。然而这种方法也存在一些局限性例如向量空间中的距离或相似度并不一定能反映真实的语义相似度而且向量空间中的噪声和异常值也会干扰语义搜索的结果。因此语义搜索的准确率也无法有100%的保证。三、RAG通用范式3.1 Naive RAG原始RAG是最早的研究范式主要包括以下几个步骤建立索引这一过程通常在离线状态下进行数据清洗并分块将分块后的知识通过embedding模型产出语义向量并创建索引。检索用户的query问题使用相同的embedding模型计算问题嵌入和文档块嵌入之间的相似度选择相似度最高的前K个文档块作为当前问题的增强上下文信息。生成将给定的问题和相关文档合并为新的提示然后由大型语言模型基于提供的信息回答问题。如果有历史对话信息也可以合并到提示中用于多轮对话。初级RAG主要在三个方面面临挑战检索质量低、生成质量差和增强过程难。检索质量低首先使用长文本做索引不能很好的突出主题建立索引时核心知识湮没在大量无用的信息中其次使用用户原始query做检索不能很好的突出其核心诉求这就导致用户query和知识索引不能很好的匹配检索质量比较差。生成质量差未检索到知识或检索知识质量差时大模型自主回答私域问题时容易产生幻觉或回答内容比较空洞无法直接使用知识库失去了本身的意义。增强过程难将检索到的信息与不同任务整合可能具有挑战性有时会导致输出不连贯或不一致。此外还有一个担忧是生成模型可能过度依赖增强信息导致输出仅仅是复述检索内容而没有添加有洞察力或综合信息。要解决上面的问题需要在检索前和检索后做一些优化这就衍生出了高级RAG的解决方案。3.2 Advanced RAG高级RAG相比于初级RAG基于初级RAG范式围绕着知识检索做优化新增了检索前、检索中以及检索后的优化策略用于解决索引、检索和生成的问题。检索前优化检索前优化集中在知识切分、索引方式和query改写的优化上。知识切分主要把较长的文本按照语义内聚性的分析切成小块解决核心知识湮没以及语义截断的问题。索引方式优化技术通过优化数据索引组织方式提升检索效果。比如去除无效数据或插入某些数据来提高索引覆盖程度从而达到与用户问题的高匹配度问题。query改写主要需要理解用户想表达的意图把用户原始的问题转换成适合知识库检索的问题从而提高检索的精准程度。检索优化检索阶段的目标是召回知识库中最相关知识。通常检索基于向量搜索它计算查询与索引数据之间的语义相似性。因此大多数检索优化技术都围绕嵌入模型展开微调嵌入模型将嵌入模型定制为特定领域的上下文特别是对于术语不断演化或罕见的领域。例如BAAI/bge是一个高性能的嵌入模型可以进行微调。动态嵌入根据单词的上下文进行调整而静态嵌入则为每个单词使用单一向量。例如OpenAI的embeddings-ada-02是一个复杂的动态嵌入模型可以捕获上下文理解。除了向量搜索之外还有其他检索技术例如混合搜索通常是指将向量搜索与基于关键字的搜索相结合的概念。如果您的检索需要精确的关键字匹配则此检索技术非常有益。检索后优化对检索到的上下文进行额外处理可以帮助解决一些问题例如超出上下文窗口限制或引入噪声从而阻碍对关键信息的关注。在RAG调查中总结的检索后优化技术包括提示压缩通过删除无关内容并突出重要上下文减少整体提示长度。重新排序使用机器学习模型重新计算检索到的上下文的相关性得分。3.3 Modular RAG随着 RAG 技术的进一步发展和演变新的技术突破了传统的检索 - 生成框架基于此催生了模块化RAG 的概念。在结构上它更加自由的和灵活引入了更多的具体功能模块例如查询搜索引擎、融合多个回答。技术上将检索与微调、强化学习等技术融合。流程上也对 RAG 模块之间进行设计和编排出现了多种的 RAG 模式。然而模块化RAG并不是突然出现的三个范式之间是继承与发展的关系。Advanced RAG是Modular RAG的一种特例形式而Naive RAG则是Advanced RAG的一种特例。3.3.1 新增模块搜索模块与相似度检索不同这部分可以被应用于特定的场景并在一些特殊语料上进行检索。一般使用向量、分词、NL2SQL或NL2Cypher等能力进行检索。预测模块这个技术减少用户问题中的冗余和噪声更加突出用户真实的意图。该模块不是直接进行检索而是利用LLM来生成必要的上下文。与通过直接检索获得的内容相比LLM生成上下文后检索得到的内容更有可能包含相关信息。记忆模块多轮对话的留存以便下次会话时能知道之前用户问了哪些问题。融合模块RAG-Fusion使用LLM将用户查询扩展为多个查询。这个方法不仅捕捉了用户需要的显示信息也揭示了更深层次的知识。融合过程包括对原始查询和扩展查询的并行向量搜索智能重排序并得到最佳搜索结果。这种复杂的方法确保了搜索结果与用户的显式和隐含的意图保持紧密一致从而能找到更深刻和更相关的信息。路由模块RAG系统的检索流程使用了各种来源的内容包含不同领域、语言、形式。这些内容都可以根据需要进行修改或合并。查询路由器还为查询选择适当的数据库其中可能包括各种来源内容如向量数据库、图数据库或关系数据库或层次结构索引。开发者需要预先定义好查询路由器的决策方式并通过LLM调用执行它将查询指向所选的索引。任务适配器模块根据任务定制化Adapter。3.3.2 新增模式基于上面六大模块可快速组合出属于自己业务的RAG每个模块高度可扩展灵活性极大。比如RR模式即可构建出传统的Naive RAGRRRR模式可构架出Advanced RAG还可以实现基于检索结果和用户评价的奖惩机制用户强化和纠正检索器的行为。四、RAG通用范式的工程实践4.1 技术架构我们实践的RAG技术架构主要可分为一底座三中心分别是数据管理底座、模型中心、多引擎中心、召回策略中心。在工程架构上每个子系统按照能力划分子Modular在上层配置调度策略并统一调度符合Modular RAG的技术规范在检索技术上围绕着检索做了大量的索引降噪、多路召回、知识去重、重排等操作符合Advanced RAG的技术规范。4.1.1 知识库基础数据底座基础数据底座中包含数据生产和数据加工的能力。数据生产中有数据版本、血缘管理、引擎同步等能力知识加工主要包含数据切片、索引优化等能力4.1.2 模型中心模型中心主要包含生成式大模型和理解式小模型。生成式大模型主要提供引用式生成的能力通过检索到的知识和用户的问题做增强生成query改写能力理解用户真实意图并改写或泛化成适合知识库检索的queryText2Cypher能力把知识库元数据和用户的问题转成图谱语言支撑上层业务的图谱检索NL2SQL能力如果业务中有需要访问数据库来获取具体数据的场景可提供此能力理解式小模型主要提供文档切块能力负责把大块的知识切分成小的片段embedding能力把知识库元数据和用户的问题转成向量rerank能力负责把多路召回的数据4.1.3 多引擎中心多引擎中心包含向量、分词以及图谱引擎在引擎中心提供多种检索方式以提高知识的命中率。4.1.4 召回策略中心召回策略中心在整个RAG建设中起到调度的作用在这里去执行query改写、多路召回、检索后置处理以及大模型引用式生成答案。基于上面的一底座两中心架构每个子能力模块化并在上层配置调度策略符合Modular RAG的技术规范。4.2 RAG建设路径RAG整体业务链路主要分为5大步骤知识生产与加工、query改写、数据召回、后置处理以及大模型生产。4.2.1 第一阶段-可运行第一阶段保证系统可用。知识生产与加工先按照固定字符切分预留冗余字符来保证语义不被截断。query改写结合上下文先使用大模型的理解能力突出用户意图以便更好的回答用户问题。数据召回第一步可以先实现向量召回多路召回中向量召回的比重是最大的也是最关键的一种召回方式需要找一个和自己业务比较契合的embedding模型和向量数据库。数据后置处理因为数据召回只有向量召回这一步可以只使用向量近似得分做排序设置符合业务预期的阈值筛选数据。并把筛选后的知识数据提供给大模型生成答案。4.2.2 第二阶段-提效果第二阶段的主要目标是提升RAG的检索效果。知识生产与加工基于固定字符的知识切分虽然预留了冗余字符但还是会出现知识内聚性被破坏的现象此时需要有一个基于语义切分知识的模型根据语义切分上下文联系比较紧密的句子拆分成一条知识。根据数据检索的情况分析索引噪音指定降噪措施。query改写明确用户意图。探索RAG-Fusion模式根据用户的query生成多个相似query多相似query检索数据。多任务query抽取把一个query任务拆分成多个子query进行检索数据。数据召回基于向量检索的基础上根据业务场景探索分词、图谱的能力甚至有些业务还需要NL2SQL的能力。数据后置处理数据去重合并。多路召回结果的重排能力建设设置统一的排序筛选标准。4.2.3 第三阶段-高扩展第三阶段的主要目标是在工程上提升可扩展性各个业务功能做模块化设计通过召回策略配置中心配置出业务所需要的RAG流程。五、RAG范式的优化实现策略5.1 知识加工生成的实现策略5.1.1 知识切片优化文档片段过长会给知识检索造成很大影响主要有两部分的问题1索引混淆核心关键词被湮没在大量的无效信息中导致建立的索引核心知识占的比重比较小无论时语义匹配、分词匹配还是图谱检索都很难精准命中关键数据从而影响生成答案的质量2token过长导致语义会被截断知识数据在embedding时可能会因为token超长导致语义截断知识检索结束后知识片段越长输入给大模型的信息条数就越少导致大模型也无法获取足够的有价值的输入从而影响生成答案的质量。5.1.1.1 按固定字符切分按固定字符拆分知识通过设置冗余字符来降低句子截断的问题使一个完整的句子要么在上文要么在下文这种方式能尽量避免在句子中间断开的问题。这种实现方式成本最低在业务起步阶段可以先使用这种方式。5.1.1.2 按句子语义切分按固定字符切有时候会遇到句子含义联系比较紧密的片段被切分成了两条数据导致数据质量比较差。可以通过语义理解小模型进行句子拆分使拆分出来的知识片段语义更加完整。5.1.2 索引优化5.1.2.1 HyDE原始的文档和用户问题一对一匹配会存在匹配容错率低的问题一旦知识一次没匹配上那就无法被召回。优化方案处理后的知识数据为了提高知识的覆盖范围可针对知识数据预先用大模型生成一些有关联的假设性问题当命中这些假设性问题时也可搜索到相应的知识数据。5.1.2.2 索引降噪索引降噪主要根据业务特点去除索引数据中的无效成分突出其核心知识降低噪音的干扰。针对QA-pair对和文章片段的知识处理起来的方法也类似。QA-pair对类型知识这种数据一般会以Q作为索引列与用户的问题组成QQ搜索模式这样数据召回时匹配难度会低。如果使用原始的Q做索引又会存在无效此干扰的问题。句子中无效的相似成分超过60%这就会对索引匹配造成很大的干扰。优化方案通过大模型泛化向量索引中的Q突出核心关键词并且把对应的Answer的主题利用大模型抽取Q和A都突出关键词。How can I register an account on Alibaba.com? -- register an account. Answer主题。突出核心主题降低无效数据的干扰。文章片段类知识文章片段类知识由于篇幅长且在语义上与问题可能差异较大导致无法很好的匹配。优化方案会通过HyDE生成假设性问题然后组成QA-pair对的形式然后再利用大模型抽取核心关键词用来降噪。5.1.2.3 多级索引近似检索和传统数据库检索不同近似检索通过聚类或HNSW建立索引后在检索时会有一定的近似误差如果在大量的知识库中检索会产生检索准确度和性能的问题在大型数据库的情况下一种有效的方法是创建两个索引——一个由摘要组成另一个由文档块组成并分两步搜索首先通过摘要过滤掉相关文档然后只在这个相关组内搜索。5.2 query改写的实现策略直接使用原始query进行检索会存在以下几个问题1知识库内的数据无法直接回答需要组合知识才能找到答案。2涉及细节比较多的问题时大模型往往无法进行高质量的回答。业务提出了RAG-Fusion和Step-Back Prompting的两种优化方案。5.2.1 RAG-FusionRAG-Fusion可以认为是MultiQueryRetriever的进化版RAG-Fusion首先根据原始question从不同角度生成多个版本的新question用以提升question的质量然后针对每个question进行向量检索到此步为止都是MultiQueryRetriever的功能与之不同的是RAG-Fusion在喂给LLM生成答案之前增加了一个排序的步骤。RAG-Fusion主要流程如下图所示查询生成/改写使用 LLM 模型对用户的初始查询进行改写生成多个查询。向量搜索对每个生成的查询进行基于向量的搜索形成多路搜索召回。倒数排序融合应用倒数排名融合算法根据文档在多个查询中的相关性重新排列文档。重排:使用一些重排算法对结果进行重排。输出生成然后可以参考重新排列后的topK搜索结果生成最终输出。排序包含两个动作一是独立对每个question检索返回的内容根据相似度排序确定每个返回chunk在各自候选集中的位置相似度越高排名越靠前。二是对所有question返回的内容利用RRFReciprocal Rank Fusion综合排序。5.2.2 Step-Back Prompting通过引入一个后退一步的问题这个问题通常更容易回答并且围绕一个更广泛的概念或原则大型语言模型可以更有效地构建它们的推理。Step-Back Prompting 过程典型的Step-Back Prompting过程主要包括两个步骤1抽象这是指大型语言模型LLM不会立即尝试回答原始问题。相反它会提出一个关于更大的概念或规则的更一般性问题。这有助于它思考和查找事实。2推理在得到一般问题的答案后大型语言模型LLM使用这些信息来思考并回答原始问题。这被称为“抽象基础推理”。它利用来自更大观点的信息来对原始的、更难的问题给出一个好的答案。示例比如问如果一辆汽车以100公里/小时的速度行驶行驶200公里需要多长时间此时大模型对数学计算可能会比较迷茫。后退提示给定速度和距离计算时间的基本公式是什么输入为了计算时间我们使用以下公式时间距离/速度使用公式时间200公里/100公里/小时2小时。5.2.3 用户query降噪当用户问一个问题时有些停用词是不起作用的比如How to register an account on Alibaba.com在这个语境中核心诉求是 register an account至于How to在表达核心诉求时意义没那么大其次当下沉Alibaba的外贸业务时on Alibaba.com也变得没那么重要因为Alibaba的外贸业务系统就是运行在Alibaba.com上知识库中的知识自然也是Alibaba.com相关的。可以针对用户问题去除停用词比如ES中维护了一份停用词库可直接使用。如果解决方案中没有ES也可自己维护停用词库在nltk、stopwords-iso、Rank NL、Common Stop Words in Various Languages等开源库中维护了大量的停用词库可根据需要取用。5.3 数据召回的实现策略5.3.1 向量召回在NLP领域向量召回一直处于无可替代的地位把自然语言转换成低纬度向量基于向量的相似度来评判语义的相似程度这也是业界比较流行的做法。再结合上面提到的向量索引的降噪、假设性性问题以及对用户query的优化一般都能取得比较不错的成绩。但单纯的语义向量召回时当文本向量化模型训练不够优时向量召回的准确率会比较低此时需要利用其他召回方式作为补充。除了向量召回常见的召回方式还有分词召回以及图谱召回。5.3.2 分词召回传统的倒排索引检索基于BM25打分排序机制从而找到从分词上比较相似的知识数据。结合上面提到的去除停用词策略以达到比较精准的程度。5.3.3 图谱召回知识图谱在知识生产和关系提取上有着独特的优势他能基于现有的数据根据其关系的抽象产生新的知识。比如现在有两条知识1阿里巴巴在国内采用A公司的物流服务。2阿里巴巴与物流公司B达成合作为客户提供更加优质、便捷的物流服务。上面两条知识经过 NL2Cypher抽取alibaba-logisticsServices-Aalibaba-logisticsServices-B基于这两条知识可产生一条新知识alibaba-logisticsServices-A B当用户问阿里巴巴平台支持哪些物流服务时可直接找到 A B。5.3.4 多路召回在NLP领域单纯的语义向量召回时当文本向量化模型训练不够优时向量召回的准确率会比较低此时需要利用其他召回作为补充。一般业务会采用多路召回的方式来达到比较好的召回效果多路召回的结果经过模型精排最终筛选出优质结果。至于使用几种召回策略根据业务而定。5.4 后置处理的实现策略5.4.1 文档合并去重首先多路召回可能都会召回同一个结果针对这部分数据要去重否则对大模型输入的token数是一种浪费。其次去重后的文档可以根据数据切分的血缘关系做文档的合并。比如检索到的D1、D2、D3都来自同一个父知识片段D则使用D替换D1、D2、D3以保证有比较好的知识语义完整性。5.4.2 Rerank精排每种召回策略的排序打分模型有差异在最终统一的数据筛选层面要有统一的评判标准。目前可用的重新排序模型并不多。一种选择是Cohere提供的在线模型可以通过API访问。此外还有一些开源模型如bge-reranker-base和bge-reranker-large等根据业务需要择优选择。六、优化经验总结RAG想做出来比较容易但想做好还是比较难的每个步骤都有可能对最终效果产生影响。我们在RAG中也做了大量的探索比如知识切分方面做了固定字符切分的效果验证分析索引噪音点利用大模型做了大量的降噪处理在query改写方面利用大模型做了更加明确的意图抽取并对用户的query进行降噪的探索在数据召回方面embedding模型基于bge、voyage和cohere做了大量的测评探索向量分词的召回策略在后置处理优化上做了知识的去重以及rerank的探索等。RAG的发展会越来越迅速只要知识依赖和知识更新的问题没有得到解决RAG就有其存在的价值和一席之地。

做网站功能备案网站管理系统

网站建设成都公司哪家好山东外贸网站推广

如何建设网站兴田德润可以吗上海高新企业名单查询

住房和建设部官方网站设计教程网

网络公司网站设计新版wordpress编辑

基于php的网站开发滨州做网站建设价格

购物网站创业时是如何做宣传的网站关键词优化是什么