当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

8个月前 (02-26)DeepSeek技术交流588

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

30余个高频场景的职场应用 看这本书活用DeepSeek

30余个高频场景的职场应用 看这本书活用DeepSeek

湖南日报·新湖南客户端3月14日讯(记者 黄煌 通讯员 徐新力)随着DeepSeek的火爆出圈,越来越多的人意识到,在AI技术重构工作方式的今天,掌握DeepSeek已成为职场核心竞争力之一。如何最大...

怎么修改 DeepSeek 的返回值的数据类型?

怎么修改 DeepSeek 的返回值的数据类型?

怎么修改 DeepSeek 的返回值的数据类型?要修改 DeepSeek 的返回值数据类型,可以通过调整模型的输出配置或使用适当的数据处理方法来实现。以下是一些可能的步骤:明确输出要求:在发送请求时,...

“DeepSeek宿州版”部署上线

“DeepSeek宿州版”部署上线

 日前,在宿州市大数据公司子公司宿州市广云智算科技有限公司建设的淮海智算中心,随着大模型完成本地化部署并上线,国内领先的人工智能大模型正式登陆云都宿州,为助力高质量发展打开了人工智能应用之门。  De...

专访学而思CTO田密:接入DeepSeek改变的不只是产品

专访学而思CTO田密:接入DeepSeek改变的不只是产品

开源的DeepSeek大模型火了,在线教育行业也因此卷起千层浪花。近期,学而思、网易有道、中公教育、猿辅导、作业帮等头部企业密集宣布接入DeepSeek大模型,这引发了业界广泛关注。DeepSeek为...

梁文锋参与发表回顾性论文:DeepSeek首次揭秘V3模型背后扩展方案

梁文锋参与发表回顾性论文:DeepSeek首次揭秘V3模型背后扩展方案

DeepSeek刚刚发表了一篇名为《深入解读 DeepSeek-V3:AI 架构的扩展挑战与硬件思考》(Insights into DeepSeek-V3: Scaling Challenges an...

职场DeepSeek写材料指令100条

职场DeepSeek写材料指令100条

以下是为您整理的100条职场常用DeepSeek写材料指令,涵盖各类办公场景需求:一、工作总结类(10条)   1.生成[XXXX]年度部门工作总结模板(含数据可视化图表模块)&n...