网站推广品牌建设网站建设与程序编辑-兰州市网站建设公司-Seo优化

网站推广品牌建设,网站建设与程序编辑,建设互联网地方垂直网站,北京环球影城必须存包的项目简介文章提出推理引导嵌入(RGE)新方法#xff0c;将多模态大模型的生成式推理能力融入嵌入提取过程。方法分为两步#xff1a;先生成结构化推理分析#xff0c;再提取特征表示。通过联合训练语言建模损失和对比损失#xff0c;避免信息泄漏问题。实验表明#xff0c;RGE在…简介文章提出推理引导嵌入(RGE)新方法将多模态大模型的生成式推理能力融入嵌入提取过程。方法分为两步先生成结构化推理分析再提取特征表示。通过联合训练语言建模损失和对比损失避免信息泄漏问题。实验表明RGE在MMEB数据集上表现优异超越了参数规模更大的模型证明了自生成推理过程对提升嵌入质量的有效性。简介近期研究发现多模态大语言模型在作为嵌入提取器方面表现出色。然而目前的主流方法大多将嵌入提取过程视为一个简单的、直接的编码步骤。这种做法忽略了一个关键事实多模态大语言模型本身具备强大的生成式推理能力而这种能力完全可以被挖掘出来用以提升最终生成的表示质量。针对以上问题我们探索了如何将“推理”过程显式地融入到嵌入生成中。为此我们提出了一种名为**推理引导嵌入Reasoning Guided Embeddings, RGE**的新方法。RGE方法的核心在于它保留了多模态大语言模型的生成式推理过程并将其与对比学习相结合。具体来说我们的方法分为两步生成结构化推理首先模型会根据给定的指令进行一步结构化的推理分析Rationale Generation生成对输入内容的理解与解释。提取表示然后在模型完成上述推理过程之后我们再从其内部状态中提取最终的特征表示。图1. 我们的方法与非推理基线的对比。方法标准推理过程生成为了让多模态大模型能够生成有效提升嵌入质量的推理过程我们首先为其提供了经过监督的正确推理示例。为此我们构建了一套标准推理过程oracle rationales这些推理过程基于查询query及其真实目标ground-truth target生成。具体地说我们在现有的MMEB训练样本基础上为每一组查询-目标对(, )生成一个标准推理过程 ()用于解释为何该目标能正确匹配查询。这些标准推理过程作为联合训练中的监督语言建模目标。值得注意的是这一过程未引入任何外部数据只是在现有的查询-目标对基础上补充了对应的标准推理过程。图2 数据集整理流程。我们将查询及其真实目标t输入到多模态大模型推理生成器中并结合针对具体任务和模态设计的提示词生成格式规范的标准推理过程 ()。如图2所示对于MMEB中的各类下游任务包括分类、视觉问答、检索和视觉定位等我们为不同模态组合手动设计了专属提示词。每个提示词开头明确指定模型的专家身份并简要说明任务目的和推理目标。此外我们还对模型输出提出了清晰的格式要求。模型需通过自然语言逻辑分析基于对查询图像和文本的细致理解生成标准推理过程。这一分析过程涵盖了多层次描述包括整体描述、目标级细节以及基于世界知识的任务相关思考。最后每个提示词都会附有一个示例帮助模型理解预期输出即给出连贯的推理过程解释如何完成指定任务。模型推理设置不同的推理模式。在推理阶段我们希望模型支持两种模式当无需推理时直接提取嵌入向量当推理有助于提升效果时生成推理过程后再提取嵌入。具体而言若在输入末尾预先插入特殊标记模型会立即将多模态输入映射到该标记处我们则以其最终层的隐藏状态作为嵌入向量。如果未预填模型则进入生成式推理模式首先生成推理过程遇到自生成的后终止然后通过再向前推理一步复用KV缓存获取该标记的隐藏状态作为最终的嵌入。这使得同一模型能够灵活实现直接池化或先推理再池化无需切换模型结构。在实际操作中我们通常在查询端启用推理因为查询往往需要更深层的理解而候选项则通过预填直接生成嵌入。此处(, , )分别代表查询、自生成推理过程和目标表示在我们框架下训练的RGE模型。特殊标记设置。在以往的MLLM嵌入方法中语义表示常取自最后一层隐藏状态中的最终标记。而在我们的方法中由于需要同时优化语言建模用于推理生成与对比对齐用于嵌入质量我们不希望词表中的任何已有标记同时承担这两项功能。因此我们引入了专用特殊标记明确以其最终层隐藏状态作为池化嵌入。此外由于之后不再有文本出现该标记也有效地替代了此流程中的功能使原有的仅用于语言建模而非语义池化。图3 训练框架概览。我们的训练框架同时优化语言建模损失和对比损失。联合训练**下一个标记预测损失.**我们遵循自回归模型的标准做法训练MLLM预测推理过程中下一个标记。这种方法有助于模型形成连贯的推理路径。其语言建模损失函数为其中表示多模态输入为位置上的推理标记为需预测的总标记数表示模型在词表上的预测分布。在训练过程中我们上一章节介绍的两种推理行为对查询部分要求模型生成推理过程对候选项则直接生成嵌入无需推理。为保证对称性和训练稳定性我们在两侧均应用语言建模目标但目标标记不同查询侧预测推理过程的各个标记候选侧则仅预测一个终止的特殊标记。如图3所示受监督的语言建模标记被明确标注查询侧为多个推理标记目标侧为一个终止的标记。双侧加权语言建模损失可表示为在实际操作中表示查询端推理标记的数量而仅在目标端终止的位置取值为1。基于自生成推理过程的对比对齐我们遵循对比学习的常规方法采用InfoNCE损失。在分别提取查询端和目标端的嵌入后对比损失可正式表示为信息泄漏问题在有监督的语言模型训练中自回归损失是在编码完整输入序列后计算的包括预填充的上下文和受监督的推理标记。这意味着在查询端最终标记的隐藏状态能够完全访问标准推理过程。如果我们直接使用这一隐藏状态进行对比对齐任务将变得过于简单对齐过程不再衡量表示质量而是利用了标准推理过程的信息泄漏。表1 信息泄露问题分析。我们在表1中通过对MMEB小规模文本-图像配对训练子集的受控检索实验对此进行了实证验证。具体而言我们从头训练了三个变体使用相同的查询-目标(, )对和超参数唯一的区别在于用作对比监督锚点的表示不同1基线模型不包含任何推理过程2, 直接在自回归LM前向过程中取隐藏状态因此暴露了标准推理标记3即我们提出的在提取之前动态生成自推理过程。表1显示了一个显著现象虽然2技术上拥有比1更多的信息但其性能远低于基线。相反3中推理过程由模型内部生成而非直接提供在两个数据集上均取得了最佳性能。这支持了我们的核心观点用于LM损失的隐藏状态与标准推理标记高度耦合为对比训练提供了一条绕开真实查询语义的捷径。通过要求模型自生成推理过程我们有效规避了这一捷径使对比损失被迫对齐于正确的语义信号。我们将这一现象归因于上述的信息泄漏问题。为进一步验证我们设计了两个扰动三元组()的诊断实验1其中为的错误目标2其中与标准推理及目标不匹配。图4 信息泄露的检索实验。从图4可以看出对于三元组()自回归损失正常下降因为与一致。而对比损失如预期并未下降因为()与并不对齐。相比之下()中自回归损失几乎没有下降因为与不对应但对比损失却异常地下降了尽管()并非有效配对。这进一步证明如果直接复用自回归LM前向过程中的隐藏状态模型在对比学习中可以利用捷径仅通过对齐和而不依赖原始查询。为防止此类信息泄漏我们在对比学习时从模型输入中移除真实推理过程改为让模型在每一步训练时动态生成推理过程。这样对比对齐仅依赖于模型自生成的推理过程从而将推理质量与判别式表示学习直接结合, 最终总体损失函数为实验实现细节我们采用Qwen2.5-VL-3B作为基础模型并对整个模型进行全参数微调。损失平衡系数设置为 10 : 1以获得更好的性能。对比损失的温度参数设为0.03。我们在MMEB数据集上进行训练推理过程通过提示InternVL3.5-38B生成。所有实验按照VLM2Vec的流程仅训练一个epoch。总批量大小为512学习率为最大新生成标记长度设置为128。在下游任务训练前我们先在包含16万条数据的子集上进行cold start阶段仅使用语言建模损失从而使MLLM熟悉所需的输出格式。该cold start检查点作为本文所有实验的初始化模型。消融实验也均在这16万数据子集内进行以提高效率。表2 在MMEB基准上的性能比较实验结果我们的模型在参数规模相当的同类模型中表现最为突出值得注意的是我们的2B参数模型已超越多个现有的7B模型。为了保证公平对比我们还基于相同的基础多模态大模型Qwen2.5VL训练了一个不包含推理过程、仅对最终隐藏状态直接进行对比监督的基线模型。与这一同等规模下最强的无推理基线相比我们的方法在MMEB数据集上取得了显著提升充分证明了RGE学习的有效性。表4 消融不同的对比监督对。消融自生成对比损失直接采用自回归语言模型前向过程中的隐藏状态进行对比监督会导致信息泄漏模型可能通过将标准推理与目标对齐而忽略原始查询从而走捷径。表4在完整的MMEB评测集上验证了这一现象。相比之下采用动态生成的自推理过程进行对比学习有效消除了这一捷径恢复了对查询内容的依赖。如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

网站推广品牌建设网站建设与程序编辑

网站建设数据收集方法植树节ppt模板下载免费版

网站做权重的好处个人博客网页

本地网站做淘宝客百度链接提交入口

免费云建站门店管理系统推荐

网页制作与网站开发模板免费做网站网站有人哪些

怎么做公司网站需要什么网站快速备案安全吗