当前位置：首页 > Deepseek最新资讯 > 正文内容

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

22小时前Deepseek最新资讯23

　　是的，与DeepSeek-OCR一样，智谱这篇论文的目标同样也是通过视觉的方式，破解当下LLM上下文冗长的难题。

　　毕竟，不论是长文档分析、代码审查，还是多轮对话，模型可不能像金鱼那样看过就忘。要让它们真正靠谱地执行任务，就得有足够稳定的「工作记忆」。

　　原因在于，更多的Token，就意味着模型需要记住更多的激活值、缓存、注意力权重，这些东西在训练和推理阶段都是靠真金白银堆出来的。

　　在Transformer结构里，模型并不知道输入的先后顺序，因此要给每个Token加上“位置编码”，告诉模型这是谁先谁后。

　　比如，把0～32K的位置区间“插值”到0～100K，这样，模型就能在工作时接受更长的输入，而不必重新训练。

　　而且，模型虽然能继续读下去，但由于它在训练中从未见过如此长的上下文，现在逼着人家读肯定表现不会好。

　　既然上下文变长了，那就让模型「读」快一点，比如用稀疏注意力、线性注意力等技巧，提高每个Token的处理效率。

　　但再怎么快，账还是那本账，Token的总量没有减少，如果上下文都到了几十万，多高的效率也顶不住。

　　但大家也知道，RAG的输出结果肯定不如模型基于训练数据的回答，而且还会因多出来的检索步骤拖慢整体响应。

　　比如，如果一句话能分成1000个Token，模型就得老老实实算1000个向量，还要在它们之间做注意力计算。

　　相比之下，Glyph不会逐字阅读，而是先把整段文字排版成图像式的视觉Token，再把这张「截图」交给VLM去处理。

　　之所以要这么做，是因为图像能承载的信息密度远高出纯文本，仅需一个视觉Token就能容纳原先需要好几个文本Token的内容。

　　借助这种方式，即便是一个上下文固定的VLM，无需借助稀疏注意力、RAG等工具，也能轻松吃下足以「撑死」LLM的超长文本。

　　举个例子：小说《简·爱》大约有240K的文本Token，对一台上下文窗口只有128K的传统LLM来说，只能塞进去一半。

　　这样一来，同样是128K上下文的VLM就能轻松看完整部《简·爱》，对故事脉络心中有数，也能从更大的全局视角来回答问题。

　　具体而言，研究团队先尽可能多地将海量长文本渲染成不同风格的图像，把VLM扔在各式各样排版、字体、布局中“读图识文”，以便训练出更强的泛化能力。

　　为此，研究团队引入由LLM驱动的遗传搜索算法，让模型自动探索最优的渲染参数——比如字体大小、页面布局、图像分辨率等——力求在尽可能压缩的同时不丢语义。

　　在找到最优的渲染方案后，研究团队又动手做了两件事：有监督微调和强化学习，旨让模型在“看图读文”这件事上更聪明、更稳。

　　此外，他们还在SFT和RL阶段都加上了辅助OCR对齐任务，教模型学会从图像里准确还原文字细节，让视觉和文本两种能力真正融为一体。

　　实验结果显示，Glyph在多项长上下文基准测试中实现了3–4倍的Token压缩率，同时依然保持与主流模型（如Qwen3-8B）相当的准确度。

　　这种压缩不仅减轻了算力负担，还带来了约4倍的prefill与解码速度提升，以及约2倍的SFT训练加速。

　　更令人惊喜的是，在极端压缩的情况下，一个上下文窗口仅128K的VLM，依然能够应对相当于百万Token级的文本任务，并丝毫不落下风。

　　此外，虽然Glyph的训练数据主要来自渲染后的文本图像，但它在多模态任务上同样表现出色，证明了其强大的泛化潜力。

　　核心思路是把长文本“画”成图，再让VLM去看图读文，做到一目十行，从而能实现高效的上下文扩展。

　　论文的一作是Jiale Cheng，他是清华大学的博士生，主要研究方向包括自然语言生成、对话系统和相关的人工智能交互技术deepseek。

　　黄教授本科与博士均毕业于清华大学，目前是清华大学计算机科学与技术系长聘教授，同时兼任智能技术与系统实验室副主任、清华大学基础模型中心副主任。

　　用图像而非文本作为输入，乍看之下似乎反直觉，但细想便会发现，这反而更贴近人脑的信息处理方式。

　　即便是阅读，我们的大脑最初接收的也只是由像素按特定规律排列组合的一串图形，在经过一层层视觉处理后，这些像素才被翻译成“文字”的概念。

　　相比之下，语言不过是我们基于视觉与其他感官体验提炼出的高度浓缩的抽象层。它标准化、成本低，但本质上依旧是视觉的降维产物。

　　有趣的是，当AI在各项指标上不断逼近人类、引发普遍焦虑的同时，每当技术发展陷入瓶颈，我们又总能从那个被质疑“没那么智能”的人脑里重新找到答案原文出处：智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：DeepSeek预测：布伦特福德vs利物浦！红军客场碾压？蒂亚戈5球vs加克波3

下一篇：西方警觉，“非洲不用我们的AI，都在用DeepSeek等中国模型”

“智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了” 的相关文章

辟谣！DeepSeek R2 8月发布传闻不实，确认无计划

　　近日网上突然传出 DeepSeek R2 预计在 8 月发布，发布日期有可能在 8 月 15 日至 8 月 30 日，但具体日期仍需等待官方公布。　　早在几个月前，...

浙江庆元：三维赋能打造高质量发展新引擎

　　今年以来，庆元县烟草专卖局聚焦企业现代化治理核心目标，以“思维革新、创新培优、队伍建设”为三大抓手持续发力，将战略部署转化为推动企业现代化治理的实际成效，为高质量发展注入源源不断的动力...

浪潮云海若一体机入选山东省首台（套）技术装备生产企业及产品名单

　　近日，《2025年度山东省首台（套）技术装备生产企业及产品名单》正式发布，浪潮云海若一体机凭借领先的技术创新性、全栈国产化适配能力及行业场景落地价值成功入选。此次入选不仅是海若一体机在...

DeepSeek服务今日突发大规模中断，技术升级遇流量峰值致宕机

　　截至今日（2025年8月11日），DeepSeek服务确实出现大规模中断，引发大量用户集中反馈。以下是综合整理的关键信息与建议：　　网传DeepSeek-R2（性能...

市场消息：DeepSeek计划年底前发布AI智能体

　　9月4日，市场消息显示，中国人工智能公司DeepSeek计划在2025年底前正式发布AI智能体（AI Agent），以抢占下一代人机交互入口。　　根据公开资料整理，...

Deepseek新模型降价50%，AI人工智能ETF(512930)涨超2.1%

　　消息面上，9月29日，DeepSeek发布DeepSeek-V3.2-Exp模型deepseek，并表示，这是一个实验性（Experimental）的版本。作为迈向新一代架构的中间步骤...

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

“智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了” 的相关文章

辟谣！DeepSeek R2 8月发布传闻不实，确认无计划

浙江庆元：三维赋能打造高质量发展新引擎

浪潮云海若一体机入选山东省首台（套）技术装备生产企业及产品名单

DeepSeek服务今日突发大规模中断，技术升级遇流量峰值致宕机

市场消息：DeepSeek计划年底前发布AI智能体

Deepseek新模型降价50%，AI人工智能ETF(512930)涨超2.1%

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

“智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了” 的相关文章

辟谣！DeepSeek R2 8月发布传闻不实，确认无计划

浙江庆元：三维赋能 打造高质量发展新引擎

浪潮云海若一体机入选山东省首台（套）技术装备生产企业及产品名单

DeepSeek服务今日突发大规模中断，技术升级遇流量峰值致宕机

市场消息：DeepSeek计划年底前发布AI智能体

Deepseek新模型降价50%，AI人工智能ETF(512930)涨超2.1%

Powered By Z-BlogPHP. Theme by TOYEAN.

浙江庆元：三维赋能打造高质量发展新引擎