有限公司技术支持东莞网站建设湘潭做网站 z磐石网络-兰州市网站建设公司-Seo优化

有限公司技术支持东莞网站建设,湘潭做网站 z磐石网络,物流网站的建设实训,中国档案网站建设的特点Abstract 我们提出了 DeepSeek-OCR#xff0c;作为通过光学二维映射压缩长上下文可行性的初步探索。DeepSeek-OCR 由两个组件构成#xff1a;DeepEncoder 和作为解码器的 DeepSeek3B-MoE-A570M。具体而言#xff0c;DeepEncoder 作为核心引擎#xff0c;旨在在高分辨率输入…Abstract我们提出了 DeepSeek-OCR作为通过光学二维映射压缩长上下文可行性的初步探索。DeepSeek-OCR 由两个组件构成DeepEncoder 和作为解码器的 DeepSeek3B-MoE-A570M。具体而言DeepEncoder 作为核心引擎旨在在高分辨率输入下保持低激活值同时实现高压缩率以确保视觉 token 数量可控且高效。实验表明当文本 token 数量不超过视觉 token 数量的 10 倍即压缩率小于 10×时模型可实现 97% 的 OCR 解码精度。即使在 20× 压缩率下OCR 准确率仍保持在约 60%。这为历史长上下文压缩和 LLM 中的记忆遗忘机制等研究领域展示了广阔前景。此外DeepSeek-OCR 还具有很高的实用价值。在 OmniDocBench 上它仅使用 100 个视觉 token 就超越了 GOT-OCR2.0每页 256 token并在使用不到 800 个视觉 token 的情况下优于 MinerU2.0平均每页 6000 token。在生产环境中DeepSeek-OCR 每天可为 LLM/VLM 生成 20 万页以上的训练数据单张 A100-40G。代码和模型权重已公开发布。Github: https://github.com/deepseek-ai/DeepSeek-OCR1 Introduction当前的大型语言模型LLM在处理长文本内容时面临显著的计算挑战因为计算复杂度随序列长度呈二次增长。我们探索了一种潜在的解决方案利用视觉模态作为文本信息的高效压缩媒介。一张包含文档文本的图像可以用远少于等效数字文本的 token 数量来表示丰富的信息这表明通过视觉 token 实现的光学压缩可以达到更高的压缩率。这一洞察促使我们从以 LLM 为中心的视角重新审视视觉语言模型VLM关注视觉编码器如何提升 LLM 处理文本信息的效率而非仅仅聚焦于人类擅长的基础视觉问答VQA任务。OCR 任务作为连接视觉与语言的中间模态为这种视觉-文本压缩范式提供了理想的试验平台因为它在视觉与文本表示之间建立了自然的压缩-解压缩映射并提供了可量化的评估手段。因此我们提出了 DeepSeek-OCR一个旨在作为高效视觉-文本压缩概念验证的 VLM。我们的工作主要有三项贡献首先我们提供了视觉-文本 token 压缩率的全面量化分析。在 Fox 基准测试中我们的方法在 9-10× 文本压缩率下实现了 96% 以上的 OCR 解码精度在 10-12× 压缩率下达到约 90%在 20× 压缩率下仍保持约 60% 的准确率若考虑输出与真值之间的格式差异实际准确率更高如图 1(a) 所示。结果表明紧凑的语言模型可以有效学习从压缩的视觉表示中解码文本这意味着更大的 LLM 可以通过适当的预训练轻松获得类似能力。其次我们引入了 DeepEncoder一种新颖的架构即使在高分辨率输入下也能保持低激活内存和较少的视觉 token。它通过 16× 卷积压缩器将窗口注意力(window attention)与全局注意力(global attention)编码组件串联起来。该设计确保窗口注意力组件处理大量视觉 token而压缩器在 token 进入密集全局注意力组件之前减少其数量从而实现内存和 token 的高效利用。第三我们基于 DeepEncoder 和 DeepSeek3B-MoE 构建了 DeepSeek-OCR。如图 1(b) 所示它在 OmniDocBench 上的端到端模型中实现了最先进的性能同时使用的视觉 token 最少。此外我们还赋予该模型解析图表、化学公式、简单几何图形和自然图像的能力以进一步提升其实用性。在生产环境中DeepSeek-OCR 每天可为 LLM 或 VLM 生成 3300 万页数据使用 20 个节点每个节点配备 8 张 A100-40G。总之本工作初步探索了将视觉模态作为 LLM 文本信息处理的高效压缩媒介。通过 DeepSeek-OCR我们证明了视觉-文本压缩可以在不同历史上下文阶段实现显著的 token 减少7-20×为应对大型语言模型中的长上下文挑战提供了有前景的方向。我们的量化分析为 VLM 的 token 分配优化提供了经验指导而提出的 DeepEncoder 架构展示了实际部署的可行性。尽管本研究以 OCR 作为概念验证但该范式为重新思考视觉与语言模态如何协同提升大规模文本处理和智能体计算效率开辟了新的可能性。2 Related Works2.1 Typical Vision Encoders in VLMs如图 2 所示当前开源 VLM 主要采用三类视觉编码器。第一类是双塔结构以 Vary 为代表利用并行 SAM 编码器增加高分辨率图像处理的视觉词汇量参数。虽然参数和激活内存可控但缺点明显需要双重图像预处理部署复杂训练时编码器流水线并行困难。第二类是切片方法以 InternVL2.0 为例将图像切分为小切片并行计算降低高分辨率下的激活内存。尽管能处理极高分辨率但由于原生编码器分辨率通常低于512×512512\times512512×512大图像被过度切片导致视觉 token 数量激增。第三类是自适应分辨率编码以 Qwen2-VL 为代表采用 NaViT 范式直接通过基于 patch 的分割处理整图无需切片并行。虽然能灵活处理多种分辨率但大图像带来巨大激活内存消耗易导致 GPU 内存溢出训练时序列打包需要极长序列长度长视觉 token 会拖慢预填充和生成阶段。2.2 End-to-end OCR ModelsOCR尤其是文档解析任务一直是图像到文本领域的热点。随着 VLM 的发展大量端到端 OCR 模型涌现根本性地改变了传统需分离检测和识别专家模型的流水线架构简化了 OCR 系统。Nougat 首次在 arXiv 学术文档 OCR 上采用端到端框架展示了模型处理密集感知任务的潜力。GOT-OCR2.0 将 OCR 2.0 范围扩展至更多合成图像解析任务设计了性能与效率权衡的 OCR 模型进一步凸显了端到端 OCR 研究的潜力。此外Qwen-VL 系列、InternVL 系列等通用视觉模型不断提升其文档 OCR 能力探索密集视觉感知边界。然而当前模型尚未解决一个关键研究问题对于包含 1000 词的文档最少需要多少视觉 token 才能解码该问题对“一图胜千言”原理的研究具有重要意义。3 Methodology3.1 Architecture如图 3 所示DeepSeek-OCR 采用统一的端到端 VLM 架构由编码器和解码器组成。编码器即 DeepEncoder负责提取图像特征、token化并压缩视觉表示解码器则基于图像 token 和提示生成所需结果。DeepEncoder 约 380M 参数主要由 80M 的 SAM-base 和 300M 的 CLIP-large 串联构成。解码器采用 3B MoE 架构激活参数约 570M。下文将深入介绍模型组件、数据工程与训练细节。3.2 DeepEncoder为探索上下文光学压缩的可行性我们需要一款具备以下特点的视觉编码器1. 支持高分辨率2. 高分辨率下低激活3. 视觉 token 少4. 支持多分辨率输入5. 参数量适中。然而第 2.1 节指出当前开源编码器无法同时满足这些条件因此我们自行设计了一种新的视觉编码器命名为 DeepEncoder。3.2.1 Architecture of DeepEncoderDeepEncoder 主要由两部分组成以窗口注意力为主的视觉感知特征提取组件和以密集全局注意力为主的视觉知识特征提取组件。为利用前人工作的预训练收益我们分别采用 SAM-basepatch 尺寸 16和 CLIP-large 作为两部分的主干架构。对于 CLIP我们移除其首个 patch 嵌入层因为其输入不再是图像而是前序管道输出的 token。两部分之间借鉴 Vary使用 2 层卷积模块对视觉 token 进行 16× 下采样。每层卷积核大小为 3步长 2填充 1通道数从 256 增至 1024。假设输入1024×10241024\times10241024×1024图像DeepEncoder 将其分割为1024/16×1024/1640961024/16\times1024/1640961024/16×1024/164096个 patch token。由于编码器前半部分以窗口注意力为主且仅 80M激活值可接受。进入全局注意力前4096 个 token 经压缩模块后变为4096/162564096/162564096/16256个从而整体激活内存可控。3.2.2 Multiple resolution support假设我们有一张含 1000 个光学字符的图像想测试解码需要多少视觉 token。这要求模型支持可变视觉 token 数量即 DeepEncoder 需支持多分辨率。我们通过动态插值位置编码满足上述需求并设计多种分辨率模式以同时训练模型使单个 DeepSeek-OCR 模型支持多分辨率。如图 4 所示DeepEncoder 主要支持两大输入模式原生分辨率与动态分辨率每种又含多个子模式。原生分辨率含四个子模式Tiny、Small、Base、Large对应分辨率与 token 数分别为512×512512\times512512×51264、640×640640\times640640×640100、1024×10241024\times10241024×1024256、1280×12801280\times12801280×1280400。Tiny 与 Small 分辨率较小为避免浪费视觉 token直接Resize原图Base 与 Large 为保持原图宽高比采用填充至对应尺寸。填充后有效视觉 token 数少于实际计算公式为Nvalid[Nactual×(1−max⁡(w,h)−min⁡(w,h)max⁡(w,h))] N_{\text{valid}}\left[N_{\text{actual}}\times\left(1-\frac{\max(w,h)-\min(w,h)}{\max(w,h)}\right)\right]Nvalid[Nactual×(1−max(w,h)max(w,h)−min(w,h))]其中www和hhh为原输入图像的宽与高。【PS这里的padding是为了简化训练用1:1来训那有什么办法更改结构或者策略直接不fix在1:1呢】动态分辨率可由两个原生分辨率组合而成。例如Gundam 模式由n×640×640n\times640\times640n×640×640切片局部视图与1024×10241024\times10241024×1024全局视图构成切片方法遵循 InternVL2.0。支持动态分辨率主要出于应用考虑尤其适用于超高分辨率输入如报纸图像。切片是二次窗口注意力的一种形式可进一步降低激活内存。值得注意的是由于我们原生分辨率较大动态分辨率下图像不会被过度切片切片数控制在 2–9 范围内。Gundam 模式下 DeepEncoder 输出的视觉 token 数为n×100256n\times100256n×100256其中nnn为切片数。对于宽高均小于 640 的图像nnn设为 0即 Gundam 模式退化为 Base 模式。Gundam 模式与四种原生分辨率模式一起训练以实现单模型支持多分辨率的目标。注意Gundam-master 模式1024×10241024\times10241024×1024局部视图 1280×12801280\times12801280×1280全局视图通过在已训练的 DeepSeek-OCR 模型上继续训练获得主要用于负载均衡因为 Gundam-master 分辨率过大一起训练会拖慢整体训练速度。3.3 The MoE Decoder我们的解码器采用 DeepSeekMoE具体为 DeepSeek-3B-MoE。推理时模型从 64 个路由专家中激活 6 个外加 2 个共享专家激活参数约 570M。3B DeepSeekMoE 非常适合面向领域我们的 OCR的 VLM 研究因为它在获得 3B 模型表达能力的同时享有 500M 小模型的推理效率。解码器从 DeepEncoder 压缩后的潜在视觉 token 重建原始文本表示过程为fdec:Rn×dlatent→RN×dtext;X^fdec(Z)其中 n≤N f_{\text{dec}}:\mathbb{R}^{n\times d_{\text{latent}}}\to\mathbb{R}^{N\times d_{\text{text}}};\quad\hat{\mathbf{X}}f_{\text{dec}}(\mathbf{Z})\quad\text{其中}\;n\leq Nfdec:Rn×dlatent→RN×dtext;X^fdec(Z)其中n≤N其中Z∈Rn×dlatent\mathbf{Z}\in\mathbb{R}^{n\times d_{\text{latent}}}Z∈Rn×dlatent为来自 DeepEncoder 的压缩潜在视觉tokenX^∈RN×dtext\hat{\mathbf{X}}\in\mathbb{R}^{N\times d_{\text{text}}}X^∈RN×dtext为重建的文本表示。函数fdecf_{\text{dec}}fdec表示一种非线性映射可通过 OCR 式训练被紧凑语言模型有效学习。有理由推测经过专门预训练优化LLM 将更自然地集成此类能力。3.4 Data Engine我们为 DeepSeek-OCR 构建了复杂多样的训练数据包括OCR 1.0 数据涵盖传统 OCR 任务如场景图像 OCR 与文档 OCROCR 2.0 数据涵盖复杂人工图像的解析任务如常见图表、化学公式、平面几何解析数据通用视觉数据主要用于赋予 DeepSeek-OCR 一定的通用图像理解能力保留通用视觉接口纯文本数据用于确保模型的语言能力。3.4.1 OCR 1.0 data文档数据是 DeepSeek-OCR 的重中之重。我们从互联网收集了 3000 万页多语言 PDF覆盖约 100 种语言其中中英文约 2500 万页其他语言约 500 万页。对此数据我们构建两种真值粗标注与细标注。粗标注直接利用 fitz 从整份数据提取旨在教会模型识别光学文本尤其针对小语种。细标注包含中英文各 200 万页借助先进版面模型如 PP-DocLayout与 OCR 模型如 MinerU、GOT-OCR2.0构建检测与识别交错数据。对于小语种检测部分我们发现版面模型具备一定泛化能力识别部分我们先利用 fitz 制作小块数据训练 GOT-OCR2.0再用训练好的模型对经版面处理的小块进行标注通过“模型飞轮”生成 60 万样本。训练 DeepSeek-OCR 时粗标签与细标签通过不同提示区分。细标注图文对的真值示例如图 5。此外我们收集 300 万页 Word 数据直接提取内容构建无版式的高质量图文对主要惠及公式与 HTML 表格。我们还选取部分开源数据作为补充。对于自然场景 OCR模型主要支持中文与英文。图像数据来自 LAION 与 Wukong借助 PaddleOCR 标注中英文各 1000 万样本。与文档 OCR 类似自然场景 OCR 也可通过提示控制是否输出检测框。3.4.2 OCR 2.0 data沿用 GOT-OCR2.0 的定义我们将图表、化学公式、平面几何解析数据称为 OCR 2.0 数据。图表数据沿用 OneChart使用 pyecharts 与 matplotlib 渲染 1000 万张图像涵盖常用折线、柱状、饼图及复合图表。我们将图表解析定义为“图像→HTML 表格”转换任务如图 6(a) 所示。化学公式利用 PubChem 的 SMILES 格式作为数据源使用 RDKit 渲染成图像构建 500 万图文对。平面几何沿用 Slow Perception感知尺尺寸设为 4 来建模每条线段。为增加渲染数据多样性引入几何平移不变数据增强同一几何图像在原始图像中平移对应坐标系中心位置绘制相同真值。据此共构建 100 万平面几何解析数据示例如图 6(b)。3.4.3 General vision dataDeepEncoder 可受益于 CLIP 的预训练收益且参数量足够注入通用视觉知识。因此我们也为 DeepSeek-OCR 准备了相应数据。沿用 DeepSeek-VL2我们生成描述、检测、定位等任务的相关数据。注意DeepSeek-OCR 并非通用 VLM这部分数据仅占总量的 20%。引入此类数据主要为保留通用视觉接口方便对我们模型及通用视觉任务感兴趣的研究者后续开展工作。3.4.4 Text-only data为确保模型语言能力我们引入 10% 内部纯文本预训练数据所有数据统一处理至 8192 token 长度这也是 DeepSeek-OCR 的序列长度。综上训练 DeepSeek-OCR 时OCR 数据占 70%通用视觉数据占 20%纯文本数据占 10%。3.5 Training Pipelines我们的训练流程非常简单主要分为两个阶段a) 独立训练 DeepEncoderb) 训练 DeepSeek-OCR。注意Gundam-master 模式是在已预训练的 DeepSeek-OCR 模型上继续用 600 万采样数据训练得到的。由于其训练协议与其他模式完全一致下文不再赘述。3.5.1 Training DeepEncoder参照 Vary我们使用紧凑语言模型并以“下一个 token 预测”框架训练 DeepEncoder。此阶段使用前述全部 OCR 1.0 与 2.0 数据以及从 LAION 数据集中采样的 1 亿通用数据。所有数据训练 2 个 epochbatch 大小 1280优化器为 AdamW采用余弦退火调度学习率 5e-5训练序列长度 4096。3.5.2 Training DeepSeek-OCRDeepEncoder 准备完毕后我们使用第 3.4 节所述数据训练 DeepSeek-OCR。整个训练在 HAI-LLM 平台上完成。模型采用流水线并行PP共分为 4 段DeepEncoder 占两段解码器占两段。对于 DeepEncoder我们将 SAM 与压缩器视为视觉 tokenizer置于 PP0 并冻结参数将 CLIP 部分视为输入嵌入层置于 PP1 并保持权重可训练。语言模型部分DeepSeek3B-MoE 共 12 层PP2 与 PP3 各放 6 层。我们使用 20 个节点每节点 8×A100-40G数据并行DP为 40全局 batch 大小 640。优化器为 AdamW采用基于步数的调度器初始学习率 3e-5。纯文本数据训练速度为 900 亿 token/天多模态数据为 700 亿 token/天。4 Evaluation4.1 Vision-text Compression Study我们选取 Fox 基准来验证 DeepSeek-OCR 对富文本文档的压缩-解压缩能力以初步探索上下文光学压缩的可行性与边界。我们使用 Fox 的英文文档部分用 DeepSeek-OCR 的 tokenizer词表大小约 129k对真值文本进行分词并选取 600–1300 token 的 100 页进行测试。由于文本 token 数量不大我们仅在 Tiny 与 Small 模式下测试Tiny 模式对应 64 个视觉 tokenSmall 模式对应 100 个。我们使用提示image\nFree OCR.控制模型输出格式。尽管如此输出格式仍无法完全对齐 Fox 基准因此实际性能会略高于测试值。如表 2 所示在 10× 压缩率内模型解码精度可达约 97%这是非常鼓舞人心的结果。未来有望通过“文本→图像”方法实现接近 10× 的无损上下文压缩。当压缩率超过 10× 时性能开始下降可能原因有二一是长文档版面更复杂二是长文本在 512×512 或 640×640 分辨率下变得模糊。第一个问题可通过将文本渲染到单页版面解决第二个问题我们认为将成为遗忘机制的一项特性。在接近 20× 的 token 压缩下精度仍可接近 60%。这些结果表明上下文光学压缩是一条非常有前景且值得深入研究的方向且该方案不会带来额外开销因为它可复用 VLM 基础设施多模态系统本就需额外的视觉模态。4.2 OCR Practical PerformanceDeepSeek-OCR 不仅是实验模型它具备强大的实用能力可为 LLM/VLM 预训练构建数据。为量化 OCR 性能我们在 OmniDocBench 上测试 DeepSeek-OCR结果如表 3 所示。仅需 100 个视觉 token640×640 分辨率DeepSeek-OCR 就超越了使用 256 token 的 GOT-OCR2.0使用 400 token有效 285 token1280×1280 分辨率时与该基准 SOTA 性能持平使用不到 800 tokenGundam 模式时优于需近 7000 token 的 MinerU2.0。这些结果证明我们的 DeepSeek-OCR 在实际应用中表现强劲且因更高的 token 压缩率而具备更强的研究潜力。如表 4 所示某些文档类别只需极少 token 即可取得满意性能例如幻灯片仅需 64 个视觉 token对于书籍与报告DeepSeek-OCR 仅需 100 个视觉 token 即可表现良好。结合 4.1 节分析这可能是因为这些文档的大部分文本 token 不超过 1000视觉-token 压缩率未超过 10×。对于报纸则需 Gundam 甚至 Gundam-master 模式才能达到可接受的编辑距离因为报纸文本 token 达 4–5k远超其他模式的 10× 压缩。这些实验结果进一步揭示了上下文光学压缩的边界可为 VLM 视觉 token 优化及 LLM 上下文压缩、遗忘机制研究提供有效参考。4.3 Qualitative Study4.3.1 Deep parsingDeepSeek-OCR 同时具备版面与 OCR 2.0 能力能够通过二次模型调用进一步解析文档中的图像我们称这一功能为“深度解析”。如图 7–10 所示模型可对图表、几何图形、化学公式乃至自然图像进行深度解析仅需统一提示即可完成。图 7在金融研报场景中深度解析模式可提取文档内图表的结构化结果。图表是金融与科研领域的重要数据载体其结构化提取是未来 OCR 不可或缺的能力。图 8对于书籍与文章深度解析模式可对文档中的自然图像输出密集描述仅需一条提示即可自动判断图像类型并输出所需信息。图 9深度解析模式还能识别化学文档中的化学公式并将其转换为 SMILES 格式。未来OCR 1.02.0 技术有望在 STEM 领域的 VLM/LLM 发展中发挥重要作用。图 10DeepSeek-OCR 亦具备“复制”简单平面几何图形的结构能力。由于几何图形中线段间存在复杂依赖几何解析任务极具挑战仍有很长路要走。4.3.2 Multilingual recognition互联网上的 PDF 不仅包含中英文还有大量多语言数据这对训练 LLM 同样关键。对于 PDF 文档DeepSeek-OCR 可处理近 100 种语言。与中英文一样多语言数据也支持版式与非版式两种 OCR 输出格式。可视化结果如图 11 所示我们选取阿拉伯语与僧伽罗语展示表明少数民族语文档同样可通过不同提示支持版式与非版式输出。4.3.3 General vision understanding我们还为 DeepSeek-OCR 保留了一定程度的通用图像理解能力相关可视化如图 12 所示主要包括图像描述、目标检测、grounding 等。同时由于引入了纯文本数据DeepSeek-OCR 的语言能力也得以保留。注意我们未加入 SFT监督微调阶段因此模型并非聊天机器人部分能力需通过补全提示触发。5 Discussion我们的工作首次探究了视觉-文本压缩的边界解码NNN个文本 token 究竟需要多少视觉 token。初步结果令人鼓舞DeepSeek-OCR 在约 10× 压缩率下实现接近无损的 OCR 压缩20× 压缩率下仍保留 60 % 精度。这些发现指明了未来应用的有前景方向例如在多轮对话中将历史对话以光学方式处理实现 10× 压缩。对于更久远的上下文我们可以对渲染图像逐级降采样进一步减少 token 消耗。这一假设借鉴了人类记忆随时间自然衰减与视觉感知随空间距离退化之间的天然类比——两者均呈现渐进式信息丢失如图 13 所示。结合这些机制上下文光学压缩方法实现了一种类似生物遗忘曲线的记忆衰退近期信息保持高保真远期记忆通过更高压缩自然模糊。尽管我们的初步探索显示了可扩展超长上下文处理的潜力——近期上下文保持高分辨率远期上下文消耗更少资源——我们承认这仍是早期工作需进一步研究。该方法为理论上无限上下文架构提供了一条路径在信息保留与计算约束之间取得平衡然而此类视觉-文本压缩系统的实际影响与局限性仍有待未来更深入的研究。6 Conclusion在本技术报告中我们提出了 DeepSeek-OCR并通过该模型初步验证了上下文光学压缩的可行性证明模型能够从少量视觉 token 中有效解码出超过 10 倍数量的文本 token。我们相信这一发现将促进未来 VLM 与 LLM 的发展。此外DeepSeek-OCR 是一个高度实用的模型能够大规模生产预训练数据是 LLM 不可或缺的助手。当然仅凭 OCR 尚不足以完全验证真正的上下文光学压缩未来我们还将进行数字-光学文本交错预训练、针尖探海needle-in-a-haystack测试等评估。从另一角度看上下文光学压缩仍有广阔的研究与改进空间代表着一个充满希望的新方向。

有限公司技术支持东莞网站建设湘潭做网站 z磐石网络

哪些网站做的美剧会员管理网站模板

科技+杭州+网站建设互联网网站建设公司组织架构

珠海新盈科技网站建设做淘宝主页网站

企业建网站品牌app设计界面

企业网站推广方案设计毕业设计设计类专业考研

公司app与网站建设方案网络架构怎么看

有限公司技术支持 东莞网站建设湘潭做网站 z磐石网络

哪些网站做的美剧会员管理网站模板

科技+杭州+网站建设互联网网站建设公司组织架构

珠海新盈科技 网站建设做淘宝主页网站

企业建网站品牌app设计界面

企业网站推广方案设计毕业设计设计类专业考研

公司app与网站建设方案网络架构怎么看

有限公司技术支持东莞网站建设湘潭做网站 z磐石网络

珠海新盈科技网站建设做淘宝主页网站