当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

2个月前 (02-26)DeepSeek技术交流134

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

西部利得基金完成DeepSeek大模型本地化部署

西部利得基金完成DeepSeek大模型本地化部署

西部利得基金宣布,公司在数字化建设领域取得重要进展,完成了DeepSeek多个大模型的本地化部署,并搭建了公司内部AI应用平台。这一举措不仅标志着公司在智能化转型上的突破性进展,也为后续在投研、风控、...

国有大行加速布局DeepSeek 推动金融服务从“信息化”迈向“认知化”

国有大行加速布局DeepSeek 推动金融服务从“信息化”迈向“认知化”

21世纪经济报道记者 张欣 北京报道3月8日,工商银行宣布在同业中率先完成 DeepSeek 最新开源大模型的私有化部署,并将其接入行内“工银智涌”大模型矩阵体系,有力推动金融业务场景的智能化升级。据...

思想者 | 金耀辉:DeepSeek破局,中国式创新如何改变AI未来?

思想者 | 金耀辉:DeepSeek破局,中国式创新如何改变AI未来?

【编者按】今年年初DeepSeek的出圈,让人看到国产大模型的巨大潜力。技术正以惊人的速度改变着人们的生活和工作方式,而如何认知技术正在成为互联网时代的“必修课”。在上海交通大学电信学院长聘教授金耀辉...

DeepSeek超越“开放权重”AI,计划发布源代码

DeepSeek超越“开放权重”AI,计划发布源代码

上个月,DeepSeek 通过发布一个新的、具有竞争力的模拟推理模型,在 AI 领域掀起了轩然大波。该模型可以在 MIT 许可证下免费下载和使用。现在,该公司正准备让这个模型背后的底层代码更加透明,承...

桦川:“调解+DeepSeek”开启基层社会治理智慧新篇

桦川:“调解+DeepSeek”开启基层社会治理智慧新篇

在基层社会治理的大棋盘上,矛盾纠纷调解是至关重要的一子。近日,桦川县综治中心创新举措,将矛盾纠纷调解工作与DeepSeek功能深度融合,成功化解多起矛盾纠纷,为基层治理难题提供了智慧解决方案,开启了基...

上海交通大学鲲鹏昇腾科教创新卓越中心特训营DeepSeek专场圆满举办

上海交通大学鲲鹏昇腾科教创新卓越中心特训营DeepSeek专场圆满举办

央广网北京3月28日消息 3月26日下午,上海交通大学鲲鹏昇腾科教创新卓越中心特训营-DeepSeek专场在上海交通大学闵行校区图书信息楼成功举办。活动旨在基于昇腾技术的DeepSeek本地化部署实践...