绵阳做网站公司商店网站制作

张小明 2026/1/11 9:32:43
绵阳做网站公司,商店网站制作,怎样建网站赚钱,专业团队张伟原图一、什么是多模态学习#xff1f; 多模态#xff08;Multimodal#xff09;指的是不同类型的数据形式#xff1a;文本、图像、音频、视频、点云、传感器信号等。人类天然就是多模态学习 者——同时通过视觉、听觉、听觉来理解世界。多模态学习的核心目标是让模型能够联合理…一、什么是多模态学习多模态Multimodal指的是不同类型的数据形式文本、图像、音频、视频、点云、传感器信号等。人类天然就是多模态学习 者——同时通过视觉、听觉、听觉来理解世界。 多模态学习的核心目标是让模型能够联合理解并关联来自不同模态的信息。比如一张狗的图片同时听到“汪汪”的声音模型应该能够把这两者关联起来。二、核心挑战1.表示不同性不同模态的数据结构差异巨大图像是密集的像素网格文本是离散的符号序列音频是连续的波形信号。如何把它们映射到一个可比较的语义空间2.对齐问题如何建立跨模态的对应关系 比如一句话“一只棕色的狗在草地上跑步”其中“棕色”对应图像的哪个区域“跑步”对应视频的哪一帧3.融合策略何时融合、如何融合不同模态的信息过早融合可能会丢失模态信息过晚融合可能会丢失跨模态交易。4.模态与不平衡训练时某些模态数据可能失效或噪声大如何保证鲁棒性三、架构演进路线1.双塔结构最简洁的设计思路每个模态用独立的编码器最后在共享空间中对齐。图像 → Image Encoder → 图像向量 ↘ → 对比学习(Contrastive) 文本 → Text Encoder → 文本向量 ↗代表模型CLIP (2021)Python# CLIP的核心思想伪代码 image_features image_encoder(images) # [B, D] text_features text_encoder(texts) # [B, D] # L2归一化 image_features F.normalize(image_features, dim-1) text_features F.normalize(text_features, dim-1) # 计算相似度矩阵 logits image_features text_features.T * temperature # [B, B] # 对比损失对角线上的配对应该相似度最高 labels torch.arange(B) loss (F.cross_entropy(logits, labels) F.cross_entropy(logits.T, labels)) / 2 **优点**结构简单推理高效可以预计算特征zero-shot能力强 **缺点**缺乏深度跨模态交互难以处理细粒度理解任务2.融合编码器在编码过程中就让不同模态交互通过Cross-Attention实现深度融合。图像tokens ──┐ ├──→ Transformer (带Cross-Attention) → 融合表示 文本tokens ──┘代表模型ViLT、ALBEF、BLIP# Cross-Attention的核心机制 class CrossAttention(nn.Module): def forward(self, x, context): # x: 查询模态 [B, N, D] # context: 被查询模态 [B, M, D] Q self.W_q(x) # Query来自x K self.W_k(context) # Key来自context V self.W_v(context) # Value来自context attn softmax(Q K.T / sqrt(d)) return attn V # x的每个token看context3. 统一序列建模把所有模态都tokenize成序列用统一的Transformer处理。核心思想图像 → ViT 切为补丁标记 文本 → 词表标记化 音频 → 声谱图补丁或离散化音频标记# 统一序列的构建 image_tokens vit_patchify(image) # [B, 196, D] text_tokens embed(tokenize(text)) # [B, L, D] # 拼接成统一序列 unified_seq concat([image_tokens, text_tokens], dim1) # 统一Transformer处理 output transformer(unified_seq)四、关键技术组件深度解析多模态完整框架┌─────────────────────────────────────────────────────────────────┐ │ 多模态大模型 │ │ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ 视觉编码器 │ → │ 投影层 │ → │ 跨模态融合 │ → │ LLM │ │ │ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │ │ ↑ ↓ │ │ ┌──────────┐ ┌──────────┐ │ │ │ 图像输入 │ │ 输出头 │ │ │ └──────────┘ └──────────┘ │ │ ↓ │ │ ┌──────────┐ ┌──────────┐ 生成的文本 │ │ │ 文本输入 │ → │ Tokenizer │ ─────────────────────→ │ │ └──────────┘ └──────────┘ │ └─────────────────────────────────────────────────────────────────┘1. 视觉编码器视觉编码器的任务是把图像转换成神经网络能理解的数值表示特征表达。为什么需要它图像原始是像素矩阵比如一张224×224的RGB图像就是[224, 224, 3]数组里面是0-255的数值。这些原始 像素对模型来说就是“噪声”——它看不出是一只猫还是一只狗。 视觉编码器的作用就是提取抽取特征把像素信息压缩成包含“这是什么”的功能。1. 1 CNN系列本质神经网络主流框架传统的视觉逐层编码器通过卷积层提取特征原始图像 [224, 224, 3] ↓ Conv层 边缘、纹理特征 [112, 112, 64] ↓ Conv层 局部模式特征 [56, 56, 128] ↓ Conv层 物体部件特征 [28, 28, 256] ↓ Conv层 高级语义特征 [7, 7, 512] ↓ 池化 最终特征向量 [512]代表模型ResNet、ConvNeXt1.2 ViT系列视觉变压器现在多模态模型的主流选择。核心思想是把图像破坏小块补丁用“视觉单词”来处理图示原始图像 224×224 ┌──┬──┬──┬──┐ │P1│P2│P3│..│ 切成14×14196个patch ├──┼──┼──┼──┤ 每个patch 16×16像素 │P4│P5│P6│..│ ├──┼──┼──┼──┤ │..│..│..│..│ └──┴──┴──┴──┘ ↓ 展平 线性投影 [CLS] [P1] [P2] ... [P196] ← 197个tokens ↓ Transformer处理 [全局特征] [局部特征1] [局部特征2] ... [局部特征196]常用的预训练视觉编码器模型训练方式特点CLIP ViT图文对比学习语义理解强适合多模态DINOv2自监督学习细粒度特征好适合分割定位SigLIP改进的对比学习比CLIP更稳定1.3 LLM (Large Language Model大语言模型)LLM是处理和生成文本的大型神经网络本质是一个强大的文字接龙机器。核心能力给定前文预测下一个词输入: 今天天气真 输出概率: 好(0.6), 差(0.2), 热(0.1), ... ## 2. 投影层 / 连接器 视觉编码器和LLM是独立预训练的它们的特征空间完全不同。投影层的任务是桥接两个世界把视觉特征“翻译”成LLM能理解 的语言。 打个比方编码器说“法语”LLM说“中文”投影层就是翻译官 但因为在海量文本上训练它学会了语言规律、世界知识、推理能力、指令遵循架构仅解码器变压器现代LLMGPT系列、LLaMA、Qwen等都采用了这个架构class LLMBlock(nn.Module): def forward(self, x): # 1. 自注意力Causal/Masked每个token只能看到之前的tokens x x self.self_attention(x, maskcausal_mask) # 2. 前馈网络非线性变换 x x self.feed_forward(x) return x class LLM(nn.Module): def forward(self, input_ids): # 1. 词嵌入token ID → 向量 x self.embedding(input_ids) # [B, L, D] # 2. 通过多层Transformer Block for block in self.blocks: # 比如32层 x block(x) # 3. 预测下一个token的概率分布 logits self.lm_head(x) # [B, L, vocab_size] return logits五、训练策略第一阶段特征扫描预训练目标视觉特征和语言空间景观# 典型任务Image Captioning for image, caption in dataloader: visual_tokens projector(vision_encoder(image)) input_ids concat([visual_tokens, tokenize(caption)]) loss llm.forward(input_ids, labelscaption_ids)第二阶段指令调优目标让模型能够遵循饮食的指令# 数据格式 { image: path/to/image.jpg, conversations: [ {from: human, value: image\n这张图片里有什么?}, {from: gpt, value: 这张图片显示了一只金毛犬在海滩上奔跑...}, {from: human, value: 狗看起来开心吗?}, {from: gpt, value: 是的从它张开的嘴巴和...} ] }
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

慈溪网站建设慈溪沈阳建设工程招投标网

LED显示屏装在哪最科学?一文讲透多场景下的黄金位置法则你有没有遇到过这样的尴尬:站在商场里仰着脖子看一块高高挂着的LED屏,脖子酸了内容还没看完;或是开车经过高速路,想看清前方广告大屏上的信息,却被正…

张小明 2026/1/11 7:30:16 网站建设

石家庄便宜做网站专门做黄漫的网站

ScienceDecrypting:打破CAJViewer加密限制的完整PDF转换方案 【免费下载链接】ScienceDecrypting 项目地址: https://gitcode.com/gh_mirrors/sc/ScienceDecrypting 在学术研究和资料收集过程中,你是否经常遇到这样的困扰:从科学文库…

张小明 2026/1/10 6:34:32 网站建设

如何用dreamer做网站36氪 wordpress 主题

Google Cloud Text-to-Speech对比:IndexTTS更懂中文语境 在短视频、虚拟主播和有声内容爆发的今天,语音合成早已不再是“把文字念出来”那么简单。观众对声音的情绪张力、节奏把控甚至音画同步精度的要求越来越高——一句旁白慢了半秒,可能就…

张小明 2026/1/8 23:28:37 网站建设

淘宝客户自己做网站怎么做广州做营销型网站

从After Effects到网页动画的无缝转换方案 【免费下载链接】bodymovin-extension Bodymovin UI extension panel 项目地址: https://gitcode.com/gh_mirrors/bod/bodymovin-extension 您是否曾为如何将精心制作的After Effects动画应用到网页中而烦恼?那些复…

张小明 2026/1/10 0:36:39 网站建设

relive模板wordpress分享seo外贸 网站公司推荐

小红书种草文案:女生也能学会的AI视频制作神器 你有没有过这样的经历? 想在小红书发一条口播视频分享护肤心得,结果拍了十几遍都不满意——表情僵、语速快、背景杂音多。剪辑两小时,发布三分钟,点赞还没评论多……最后…

张小明 2026/1/10 0:00:44 网站建设