当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

4个月前 (02-26)DeepSeek技术交流229

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

朱啸虎:腾讯是DeepSeek开源最大的受益者

朱啸虎:腾讯是DeepSeek开源最大的受益者

新浪科技讯 4月2日晚间消息,在2025在中关村论坛年会上,金沙江创投主管合伙人朱啸虎发表演讲。朱啸虎表示,DeepSeek出来以后,确实是对整个大模型的AI生态有着巨大的改变。在DeepSeek出来...

基调听云全面接入 DeepSeek,开启可观测性智能新时代

基调听云全面接入 DeepSeek,开启可观测性智能新时代

在数字化转型的浪潮中,企业对信息技术的依赖程度不断加深,从日常办公到核心业务,信息技术贯穿企业运营的各个环节。随着企业 IT 架构日益复杂,微服务架构与多元云服务被广泛应用,IT 环境变得错综复杂,可...

效率狂飙!DeepSeek最强16个王炸组合,打工人必看!(强烈建议收藏)

效率狂飙!DeepSeek最强16个王炸组合,打工人必看!(强烈建议收藏)

01内容创作:1分钟输出爆款(1)DeepSeek + 豆包            爆款文案生成器自媒体人痛点:选题难、灵感枯竭?输入行业关...

江西联通深化人工智能赋能 推动DeepSeek多领域融合创新

江西联通深化人工智能赋能 推动DeepSeek多领域融合创新

当下最热的DeepSeek与江西联通携手,将擦出怎样的精彩火花?从政务服务到高校课堂,从纺织车间到产业决策,一场由人工智能驱动的变革正加速重构传统业态。近日,江西联通以DeepSeek大模型为核心,在...

对话DeepSeek 畅想智能未来”技术峰会在昆明举行

对话DeepSeek 畅想智能未来”技术峰会在昆明举行

“对话DeepSeek 畅想智能未来”技术峰会在昆明举行3月14日,“对话DeepSeek 畅想智能未来”技术峰会在昆明举行。来自省市区政府部门、行业头部企业、大模型生态伙伴及产业上下游企业等500余...

百度发布两款大模型,对标DeepSeek、聚焦多模态

百度发布两款大模型,对标DeepSeek、聚焦多模态

3月16日,在文心一言正式发布两周年后,百度发布了多模态大模型文心4.5和对标DeepSeek的文心X1。今日文心大模型4.5在百度智能云千帆大模型平台上线,输入价格为0.004元/千tokens;文...