绵阳做网站公司商店网站制作-兰州市网站建设公司-Seo优化

绵阳做网站公司,商店网站制作,怎样建网站赚钱,专业团队张伟原图一、什么是多模态学习#xff1f; 多模态#xff08;Multimodal#xff09;指的是不同类型的数据形式#xff1a;文本、图像、音频、视频、点云、传感器信号等。人类天然就是多模态学习者——同时通过视觉、听觉、听觉来理解世界。多模态学习的核心目标是让模型能够联合理…一、什么是多模态学习多模态Multimodal指的是不同类型的数据形式文本、图像、音频、视频、点云、传感器信号等。人类天然就是多模态学习者——同时通过视觉、听觉、听觉来理解世界。多模态学习的核心目标是让模型能够联合理解并关联来自不同模态的信息。比如一张狗的图片同时听到“汪汪”的声音模型应该能够把这两者关联起来。二、核心挑战1.表示不同性不同模态的数据结构差异巨大图像是密集的像素网格文本是离散的符号序列音频是连续的波形信号。如何把它们映射到一个可比较的语义空间2.对齐问题如何建立跨模态的对应关系比如一句话“一只棕色的狗在草地上跑步”其中“棕色”对应图像的哪个区域“跑步”对应视频的哪一帧3.融合策略何时融合、如何融合不同模态的信息过早融合可能会丢失模态信息过晚融合可能会丢失跨模态交易。4.模态与不平衡训练时某些模态数据可能失效或噪声大如何保证鲁棒性三、架构演进路线1.双塔结构最简洁的设计思路每个模态用独立的编码器最后在共享空间中对齐。图像 → Image Encoder → 图像向量 ↘ → 对比学习(Contrastive) 文本 → Text Encoder → 文本向量 ↗代表模型CLIP (2021)Python# CLIP的核心思想伪代码 image_features image_encoder(images) # [B, D] text_features text_encoder(texts) # [B, D] # L2归一化 image_features F.normalize(image_features, dim-1) text_features F.normalize(text_features, dim-1) # 计算相似度矩阵 logits image_features text_features.T * temperature # [B, B] # 对比损失对角线上的配对应该相似度最高 labels torch.arange(B) loss (F.cross_entropy(logits, labels) F.cross_entropy(logits.T, labels)) / 2 **优点**结构简单推理高效可以预计算特征zero-shot能力强 **缺点**缺乏深度跨模态交互难以处理细粒度理解任务2.融合编码器在编码过程中就让不同模态交互通过Cross-Attention实现深度融合。图像tokens ──┐ ├──→ Transformer (带Cross-Attention) → 融合表示文本tokens ──┘代表模型ViLT、ALBEF、BLIP# Cross-Attention的核心机制 class CrossAttention(nn.Module): def forward(self, x, context): # x: 查询模态 [B, N, D] # context: 被查询模态 [B, M, D] Q self.W_q(x) # Query来自x K self.W_k(context) # Key来自context V self.W_v(context) # Value来自context attn softmax(Q K.T / sqrt(d)) return attn V # x的每个token看context3. 统一序列建模把所有模态都tokenize成序列用统一的Transformer处理。核心思想图像 → ViT 切为补丁标记文本 → 词表标记化音频 → 声谱图补丁或离散化音频标记# 统一序列的构建 image_tokens vit_patchify(image) # [B, 196, D] text_tokens embed(tokenize(text)) # [B, L, D] # 拼接成统一序列 unified_seq concat([image_tokens, text_tokens], dim1) # 统一Transformer处理 output transformer(unified_seq)四、关键技术组件深度解析多模态完整框架┌─────────────────────────────────────────────────────────────────┐ │ 多模态大模型 │ │ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ 视觉编码器 │ → │ 投影层 │ → │ 跨模态融合 │ → │ LLM │ │ │ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │ │ ↑ ↓ │ │ ┌──────────┐ ┌──────────┐ │ │ │ 图像输入 │ │ 输出头 │ │ │ └──────────┘ └──────────┘ │ │ ↓ │ │ ┌──────────┐ ┌──────────┐ 生成的文本 │ │ │ 文本输入 │ → │ Tokenizer │ ─────────────────────→ │ │ └──────────┘ └──────────┘ │ └─────────────────────────────────────────────────────────────────┘1. 视觉编码器视觉编码器的任务是把图像转换成神经网络能理解的数值表示特征表达。为什么需要它图像原始是像素矩阵比如一张224×224的RGB图像就是[224, 224, 3]数组里面是0-255的数值。这些原始像素对模型来说就是“噪声”——它看不出是一只猫还是一只狗。视觉编码器的作用就是提取抽取特征把像素信息压缩成包含“这是什么”的功能。1. 1 CNN系列本质神经网络主流框架传统的视觉逐层编码器通过卷积层提取特征原始图像 [224, 224, 3] ↓ Conv层边缘、纹理特征 [112, 112, 64] ↓ Conv层局部模式特征 [56, 56, 128] ↓ Conv层物体部件特征 [28, 28, 256] ↓ Conv层高级语义特征 [7, 7, 512] ↓ 池化最终特征向量 [512]代表模型ResNet、ConvNeXt1.2 ViT系列视觉变压器现在多模态模型的主流选择。核心思想是把图像破坏小块补丁用“视觉单词”来处理图示原始图像 224×224 ┌──┬──┬──┬──┐ │P1│P2│P3│..│ 切成14×14196个patch ├──┼──┼──┼──┤ 每个patch 16×16像素 │P4│P5│P6│..│ ├──┼──┼──┼──┤ │..│..│..│..│ └──┴──┴──┴──┘ ↓ 展平线性投影 [CLS] [P1] [P2] ... [P196] ← 197个tokens ↓ Transformer处理 [全局特征] [局部特征1] [局部特征2] ... [局部特征196]常用的预训练视觉编码器模型训练方式特点CLIP ViT图文对比学习语义理解强适合多模态DINOv2自监督学习细粒度特征好适合分割定位SigLIP改进的对比学习比CLIP更稳定1.3 LLM (Large Language Model大语言模型)LLM是处理和生成文本的大型神经网络本质是一个强大的文字接龙机器。核心能力给定前文预测下一个词输入: 今天天气真输出概率: 好(0.6), 差(0.2), 热(0.1), ... ## 2. 投影层 / 连接器视觉编码器和LLM是独立预训练的它们的特征空间完全不同。投影层的任务是桥接两个世界把视觉特征“翻译”成LLM能理解的语言。打个比方编码器说“法语”LLM说“中文”投影层就是翻译官但因为在海量文本上训练它学会了语言规律、世界知识、推理能力、指令遵循架构仅解码器变压器现代LLMGPT系列、LLaMA、Qwen等都采用了这个架构class LLMBlock(nn.Module): def forward(self, x): # 1. 自注意力Causal/Masked每个token只能看到之前的tokens x x self.self_attention(x, maskcausal_mask) # 2. 前馈网络非线性变换 x x self.feed_forward(x) return x class LLM(nn.Module): def forward(self, input_ids): # 1. 词嵌入token ID → 向量 x self.embedding(input_ids) # [B, L, D] # 2. 通过多层Transformer Block for block in self.blocks: # 比如32层 x block(x) # 3. 预测下一个token的概率分布 logits self.lm_head(x) # [B, L, vocab_size] return logits五、训练策略第一阶段特征扫描预训练目标视觉特征和语言空间景观# 典型任务Image Captioning for image, caption in dataloader: visual_tokens projector(vision_encoder(image)) input_ids concat([visual_tokens, tokenize(caption)]) loss llm.forward(input_ids, labelscaption_ids)第二阶段指令调优目标让模型能够遵循饮食的指令# 数据格式 { image: path/to/image.jpg, conversations: [ {from: human, value: image\n这张图片里有什么?}, {from: gpt, value: 这张图片显示了一只金毛犬在海滩上奔跑...}, {from: human, value: 狗看起来开心吗?}, {from: gpt, value: 是的从它张开的嘴巴和...} ] }

绵阳做网站公司商店网站制作

慈溪网站建设慈溪沈阳建设工程招投标网

石家庄便宜做网站专门做黄漫的网站

如何用dreamer做网站36氪 wordpress 主题

淘宝客户自己做网站怎么做广州做营销型网站

relive模板wordpress分享seo外贸网站公司推荐

广西网站建设的公司哪家好没有logo可以做网站的设计吗

绵阳做网站公司商店网站制作

慈溪网站建设慈溪沈阳建设工程招投标网

石家庄便宜做网站专门做黄漫的网站

如何用dreamer做网站36氪 wordpress 主题

淘宝客户自己做网站怎么做广州做营销型网站

relive模板wordpress分享seo外贸 网站公司推荐

广西网站建设的公司哪家好没有logo可以做网站的设计吗

relive模板wordpress分享seo外贸网站公司推荐