当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源新模型

15小时前Deepseek最新资讯17

　　在GitHub（）上可以看到其最新模型名为DeepSeek-OCR，还是一款OCR（光学字符识别）模型，该模型的参数量为3B。

　　DeepSeek 表示，DeepSeek-OCR 模型是通过光学二维映射（将文本内容压缩到视觉像素中）来高效压缩长文本上下文。

　　该模型主要由 DeepEncoder 和 DeepSeek3B-MoE-A570M 解码器两大核心组件构成。其中 DeepEncoder 作为核心引擎，既能保持高分辨率输入下的低激活状态，又能实现高压缩比，从而生成数量适中的视觉 token。

　　简而言之，一张包含文档文本的图像可以用比等效文本少得多的 Token 来表示丰富的信息，这表明：通过视觉 Token 进行光学压缩可以实现高得多的压缩率。

　　基于这一洞见，DeepSeek 从以 LLM 为中心的视角重新审视了视觉语言模型 (VLM)，其中，他们的研究重点是：视觉编码器如何提升 LLM 处理文本信息的效率，而非人类已擅长的基本视觉问答 (VQA) 任务。DeepSeek 表示，OCR 任务作为连接视觉和语言的中间模态，为这种视觉 - 文本压缩范式提供了理想的试验平台，因为它在视觉和文本表示之间建立了自然的压缩 - 解压缩映射，同时提供了可量化的评估指标。

　　鉴于此，DeepSeek-OCR 便由此而生。这是一个为实现高效视觉 - 文本压缩而设计的 VLM。

　　如图所示，DeepSeek-OCR 采用了一个统一的端到端 VLM 架构，由一个编码器和一个解码器组成。

　　DeepSeek-OCR 的创新架构不仅实现了高效的视觉-文本压缩，更在实际应用中展现出强大的性能潜力。

　　在编码器层面，DeepSeek创造性地将SAM-base的局部感知能力与CLIP-large的全局理解优势相结合。就像一位经验丰富的古籍修复师，它既能用显微镜精准识别每个字符的细节（窗口注意力），又能用广角镜把握整篇文档的版式结构（全局注意力）。特别值得注意的是其创新的16倍下采样机制——这相当于将一本300页的书籍压缩到20页的体量，却仍能保留97%的关键信息。

　　而MoE解码器采用的混合专家机制犹如一个专业翻译团队：面对不同语种、不同版式的文档时，系统会自动激活最擅长的6位专家协同工作。这种动态资源调配使得3B参数的大模型在实际运行时仅需570M参数的计算开销，在A100显卡上就能实现每天20万页的处理效率——相当于100名专业录入员的工作量。

　　这也意味着DeepSeek-OCR存在广泛应用潜力，在金融领域deepseek，它可以将厚厚的财报瞬间转为结构化数据；在医疗行业，能快速数字化历史病历档案；对出版机构而言，古籍数字化效率将提升数十倍。更值得关注的是，该模型展现出的视觉记忆特性，为突破大语言模型的上下文长度限制提供了全新思路。原文出处：DeepSeek开源新模型，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：赚钱，DeepSeek果然第一！全球六大顶级AI实盘厮杀，人手1万刀开局

下一篇：突破新领域，深度求索发布文字识别模型DeepSeek-OCR

“DeepSeek开源新模型” 的相关文章

DeepSeek开源新模型

“DeepSeek开源新模型” 的相关文章

海尔智慧楼宇技术研发投入每年递增30%

腾讯发布AI编程工具CodeBuddy 国内版支持DeepSeek

10月17日DeepSeek预测：森林狼vs公牛，残阵对决公牛主场险胜

万马科技(300698.SZ)：已全面开展包括R1在内的DeepSeek全系列模

DeepSeek、智谱将发布新模型

R2没等来，DeepSeek V3.1模型发布：价格涨了，智能体能力加强

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.