当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek新模型用OCR解决超长文本:这世界还能被更高效压缩?

9小时前Deepseek最新资讯13

  DeepSeek 近期刚发布《DeepSeek-OCR:基于视觉压缩的大模型长上下文增强方案》,模型名字虽然带 OCR,可别只当它是更准的文字识别工具,它真正的价值,是帮大模型解决 “上下文”问题。

  当下主流大模型的上下文窗口大多在 128k-200k tokens,可财报、科研论文、书籍等动辄上千页,还混着表格、公式,传统办法只能 “切片段、多轮传”,不仅逻辑断档,还会有延时等问题。而 DeepSeek-OCR 用了个反常规思路:把文本转成图像再压缩,需要用到文本时候再解压缩。不但 Tokens 消耗直接降一个数量级,精度还没怎么丢。

  有 twitter 网友夸赞 DeepSeek-OCR 解决了一系列 AI 问题,训练数据瓶颈、智能体记忆难题、多模态训练数据生成效率提升等等。

  DeepSeek-OCR 的成功,靠的是两个核心部件的完美配合:DeepEncoder 视觉压缩模块和MoE 专家解码器,就像一个压缩-解压缩的流水线。

  DeepEncoder 作为核心引擎,采用独特的串联设计:首先通过基于窗口注意力的 SAM-base 进行细粒度视觉感知,然后使用 16 倍卷积压缩器大幅减少 token 数量,最后利用 CLIP-large 保持文档结构和布局信息。这种设计使得模型在处理高分辨率输入时既能维持较低的激活内存,又能实现高效的 token 压缩。

  MoE 解码器基于 DeepSeek-3B-MoE 架构,仅激活少量专家参数(570M),却能有效重建原始文本表示。这种高效的设计使得模型在压缩比与精度之间实现了优异平衡。

  举个例子,想象一下处理一份 20 页的学术论文。传统方法得切成好几段,公式、图表、正文的关联全断了。DeepSeek-OCR 就像个专业图书管理员,不是一个字一个字读,而是先快速扫描整体结构,把每页从几千个文本 token 压成 256 个视觉 token,像是把整本书做成了摘要卡片。等你问实验数据在哪儿,它马上就能定位并还原出完整内容,连上下文都不会乱。

  为了证明效果,DeepSeek 在论文做了标准数据集、真实场景、训练效率三类测试,结果都挺炸裂的。

  论文团队用 Fox 基准测试集(包含 100 页英文文档)做了详细测试,把文档按原始文本 token 数量分组,看不同压缩比下的表现。结果发现了一个关键规律:当压缩比控制在 10 倍以内,准确率基本都在 95%以上,几乎可以算无损压缩。比如处理 700-800 个 token 的文档,用 100 个视觉 token 就能达到 97.3%的准确率,压缩比 7.5 倍。即使文档增加到 1200-1300 个 token,用 100 个视觉 token 仍能保持 87.1%的准确率,压缩比 12.6 倍。

  真实场景测试选了三个最难啃的领域。处理 286 页的上市公司年报时,DeepSeek-OCR 表格还原准确率 95.7%,关键数据误差低于 0.3%,单轮 4 分 12 秒就搞定。MinerU2.0 得切成 6 段分批处理,耗时近 29 分钟,而且表格断档率高达 18.2%,很多关联信息都丢了。

  处理 62 页带 45 个复杂公式的 Nature 论文时,DeepSeek-OCR 公式识别准确率 92.1%,生成的 LaTeX 格式几乎完美,可以直接复制粘贴使用。Azure OCR 只有 76.3%的准确率,生成的格式乱得没法用,还得人工重新整理。

  处理 158 页带大量批注的并购合同时,DeepSeek-OCR 批注关联准确率 89.5%,能完整保留条款之间的逻辑关系。Tesseract 5.0 只有 62.3%,比它高出整整 27 个百分点,很多批注和正文的关联都断了deepseek

  训练效率上也是吊打对手。DeepSeek 的动态数据生成框架一天能产出 20 万页标注数据,传统人工标注一天才 500 页,效率差了 400 倍。而且模型迭代还快,100 万页数据训 7 天,复杂场景准确率就能提升 12.6 个百分点。

  论文里还展示了 DeepSeek-OCR 的深度解析能力。在金融研究报告中,它不仅能识别文字,还能把文档里的图表转换成结构化的 HTML 表格数据,分析师可以直接拿去建模。在科研论文中,能把化学分子式转成 SMILES 格式,把复杂的几何图形解析成可编辑的结构数据。甚至对自然图片,它也能给出详细的场景描述。这种一次识别、多种输出的能力,让它不只是个 OCR 工具,更像是个多面手的文档理解助手。

  论文里提出了一个分层上下文管理策略,简单说就是把信息按重要性和时间分三层存储。短期上下文,也就是最近 10 轮对话、20 页文档,用原始文本存,零误差。中期上下文,也就是 100 轮对话、200 页文档,压缩 10 倍存成图像,精度和效率都兼顾。长期上下文,也就是 1000 轮对话、1000 页文档,压缩 20 倍存,海量信息也装得下。

  应用场景也很广。金融领域可以帮分析师提取财报数据,省 70%整理时间。教育领域批改作业,手写答案、画图题都能判。工业领域读设备巡检报告,辅助 AI 生成维修方案。目前已有 3 家头部金融机构、2 家教育公司在试点,反馈效率提升 60%-85%。

  首先是超高压缩比有风险。压缩比超过 30 倍,关键信息保留率会跌破 45%,法律、医疗这种对精度要求极高的场景不太适用。其次是复杂图形识别还不够强,三维图表、手写艺术字的识别准确率比印刷体低 12-18 个百分点。

  DeepSeek 这篇论文,本质上是把 OCR 从一个单纯的文字识别工具,变成了大模型长上下文的解决方案。通过视觉压缩+跨模态对齐,既解决了长文档处理的内存瓶颈,又保持了高精度,还能适配多领域、开源普惠。

  从行业角度看,这可能预示着多模态大模型优化的新方向。以后大模型处理信息,说不定都会靠文本转图像压缩。对企业和开发者来说,现在就能用它降低大模型应用成本,抓住这个技术趋势,没准能在智能化转型的赛道上占得先机。原文出处:DeepSeek新模型用OCR解决超长文本:这世界还能被更高效压缩?,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek新模型用OCR解决超长文本:这世界还能被更高效压缩?” 的相关文章

下载量暴跌七成!DeepSeek真凉了?真相来了!

下载量暴跌七成!DeepSeek真凉了?真相来了!

  DeepSeek凉了?下载量暴跌70%、新版本跳票、母公司卷入亿元返佣案……曾经的“国产AI之光”,如今被按在地上反复摩擦。但别急着唱衰——当我们盯着官网流量数据幸灾乐祸时,可能忽略了...

奥克斯空调全系产品拥抱鸿蒙系统,共启智能互联新纪元

奥克斯空调全系产品拥抱鸿蒙系统,共启智能互联新纪元

  2025年9月16日,由华为技术有限公司承办的第四届“828企业家活动——鸿启新程·算赋浙商”在浙江杭州盛大举行,奥克斯空调受邀参会。据悉,奥克斯空调早已深度融入鸿蒙智能生态,其全系产...

DeepSeek预测:西班牙人vs马德里竞技!瑟洛特天神下凡,床单军团客场碾压?

DeepSeek预测:西班牙人vs马德里竞技!瑟洛特天神下凡,床单军团客场碾压?

  2025赛季西甲首轮焦点战,RCDE球场将迎来加泰罗尼亚小霸王西班牙人与铁血之师马德里竞技的较量。尽管联赛尚未开打,但西蒙尼的球队已凭借季前热身赛的疯狂表现被视作夺冠热门,而主队西班牙...

华蓝集团:办公管理系统、项目管理系统已经接入DeepSeek、通义千问等AI大模

华蓝集团:办公管理系统、项目管理系统已经接入DeepSeek、通义千问等AI大模

  证券日报网讯 华蓝集团8月18日在互动平台回答投资者提问时表示,公司办公管理系统、项目管理系统已经接入DeepSeek、通义千问等AI大模型deepseek,提高了公司行政管理、项目管...

詹姆斯坐骨神经痛跷二郎腿?DeepSeek:危险!可能加重伤情

詹姆斯坐骨神经痛跷二郎腿?DeepSeek:危险!可能加重伤情

  直播吧10月13日讯 NBA季前赛,湖人主场迎战勇士,詹姆斯坐在了更高的椅子上,但跷了个二郎腿。   经DeepSeek分析,对于坐骨神经痛患者,跷二郎腿是一个非常不...

DeepSeek等大模型集体“打标”,从此告别AI造假?

DeepSeek等大模型集体“打标”,从此告别AI造假?

  9月1日,DeepSeek在官方公众号发布公告,表示对AI生成合成内容添加标识,并明确提醒用户相关内容由AI生成。   其他大模型厂商其实也早有动...