当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布新版本模型:优化推理效率,API降价超50%

  值得注意的是,此前有不少科技博主发现,DeepSeek-V3.2新模型已上传至其HuggingFace官方页面,随后被删除,此后DeepSeek正式公告新版本的推出。

  据DeepSeek介绍,作为迈向新一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行探索性优化和验证。目前,官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp,同时API大幅度降价。

  据了解,DeepSeek Sparse Attention(DSA)首次实现细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现长文本训练和推理效率的大幅提升。为严谨评估引入稀疏注意力带来的影响,把DeepSeek-V3.2-Exp的训练设置与V3.1-Terminus进行严格的对齐。在各领域的公开评测集上,DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平。

  在新模型的研究过程中,需要设计和实现很多新的GPU算子,使用高级语言TileLang进行快速原型开发,以支持更深入的探索。在最后阶段,以TileLang作为精度基线,逐步使用底层语言实现更高效的版本。此次开源的主要算子包含TileLang与 CUDA两种版本。

  DeepSeek表示,得益于新模型服务成本的大幅降低,官方API价格也相应下调,开发者调用DeepSeek API的成本将降低50%以上。从价格来看,输入缓存命中从0.5元降至0.2元/百万tokens,缓存未命中从4元降至2元/百万tokens,输出由12元降至3元/百万tokens。

  除了DeepSeek,国内另一大模型厂商智谱的新一代旗舰模型GLM-4.6也即将发布,目前deepseek,在Z.ai官网可以看到,GLM-4.5标识为上一代旗舰模型。

  此前9月18日,梁文锋带着DeepSeek-R1的研究,登上最新一期国际顶级期刊《自然》(Nature)封面。

  《自然》杂志指出,如此总结DeepSeek-R1带来的进步:如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种“推理”与人类处理更复杂问题的方式类似,但这对人工智能有极大挑战,需要人工干预来添加标签和注释。

  DeepSeek的研究人员揭示了他们如何能够在极少的人工输入下训练一个模型,并使其进行推理。DeepSeek-R1模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。原文出处:DeepSeek发布新版本模型:优化推理效率,API降价超50%,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek发布新版本模型:优化推理效率,API降价超50%” 的相关文章

《水木清华》专访医渡科技徐济铭:数据驱动医疗变革的探路者

《水木清华》专访医渡科技徐济铭:数据驱动医疗变革的探路者

  近年来清华大学培养了一大批优秀的人工智能人才,一批清华校友现已成为我国人工智能产业的中坚力量。进入2020年代,在大模型引领的人工智能时代新浪潮下,“清华人”主导的AI大模型企业相继涌...

国产AI再迎弯道超车机遇?DeepSeek、寒武纪同步重磅发布!科创人工智能ET

国产AI再迎弯道超车机遇?DeepSeek、寒武纪同步重磅发布!科创人工智能ET

  :一是加强构建导向明确、尊重规律、规范发展的政策环境,制定政策指引;二是协同推进技术攻关和开源共享,支持人工智能企业和各行业龙头企业开展协同创新;三是在供需两端同步发力,推动市场扩容。...

美团大模型来了!开源“长猫”,性能追平DeepSeek V3.1,同样主打“算力

美团大模型来了!开源“长猫”,性能追平DeepSeek V3.1,同样主打“算力

  LongCat-Flash推理速度超过100词元/秒,每处理一百万输出词元的成本仅为0.7美元。该模型不仅在多个方面与DeepSeek V3.1、Qwen3等顶尖模型旗鼓相当,甚至在某...

科创100ETF华夏(588800)涨超1.8%,DeepSeek最新模型降价5

科创100ETF华夏(588800)涨超1.8%,DeepSeek最新模型降价5

  消息面上,9月29日,DeepSeek发布DeepSeek-V3.2-Exp模型,并表示,这是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2-Ex...

卫星产业迎来“Deepseek”时刻?卫星产业ETF(159218)午后大涨3.

卫星产业迎来“Deepseek”时刻?卫星产业ETF(159218)午后大涨3.

  卫星产业ETF(159218)跟踪卫星产业指数,覆盖卫星产业上下游龙头企业,相比于同类指数,风险收益表现亮眼,标的指数近一年涨幅近40%。   8月4日,沪指韧性飘红...

华泰证券:DeepSeek-V3.1发布,国产算力链迎来高景气

华泰证券:DeepSeek-V3.1发布,国产算力链迎来高景气

  研报表示,Deepseek官方发布DeepSeek-V3.1版本,采用UE8M0 FP8精度参数,能效高、动态范围大、能避免信息损失。该精度参数是针对即将发布的下一代国产芯片设计,国产...