浪潮云AI智算云服务全新升级,聚势赋能数智化
为加快实施 “人工智能+”行动,强化智能算力统筹等基础支撑能力,近日,浪潮云全新升级新一代AI智算云服务,以可运营私有云为基础,以多云异构算力统一调度、高性能网络加速、高性能分布式存储架构、容器引擎等核心技术为支撑,旨在强化智能算力互联互通和统筹调度能力,提供标准化、可扩展的智算云服务。
新一代AI智算云聚焦算力基础设施发展方向,丰富完善算力服务 与调度 能力 ,结合专业化运维 体系,为用户提供高效、智能、开放的一站式AI智算服务解决方案,为不同规模的组织用户提供灵活可扩展的算力资源,全面满足用户在模型训练、推理、数据处理等方面的多元化需求。
在算力调度 层,AI智算云实现了对GPU资源的分时复用与跨集群跨域调度,通过公平调度、拓扑感知调度等多样化策略并引入智能调度算法,有效调度热数据,显著提升异构资源分配效率与集群利用率。平台支持单节点容器化交付,具备故障自愈和无损扩缩容能力,有效保障训练与推理任务的连续性和稳定性,最终推动AI训练与推理的一体化协同,加速AI业务整体迭代效率deepseek。
·AI计算服务 :AI智算云实现了异构加速卡间互联互通、GPU多模态虚拟化、单卡算力共享等能力,打破大规模异构智算资源并行训练的技术壁垒,为超万卡智算集群对外提供统一智能算力奠定坚实基础;此外,完成了全国异构GPU设备资源的全面纳管与统一调度,支持多种芯片架构与操作系统混合部署,实现对异构设备从“上线配置”到“日常运维”的全生命周期管理,一站式满足软硬件兼容适配、资源高效分配利用以及设备集中管理与监控等统一纳管需求。
· 高性能存储服务 :AI智算云解决了海量小文件场景下元数据管理效率低、存储空间浪费及访问性能下降的问题,实现小文件的高效存储与快速访问,并基于此实现了高性能分布式存储架构的升级。而并行文件存储与高性能对象存储产品则完成了存储产品矩阵的升级,实现海量数据的高效管理与低延迟访问,保障AI训练过程中的数据连续性与稳定性;同时支持数据分层管理,实现冷热数据的智能调度与存储资源的最优配置,进一步提升数据处理效率,降低存储成本。
· 高性能网络服务 :AI智算云搭载AI高速网络,支持超低延迟RDMA、智能拥塞控制及无损传输,可支撑超万卡级GPU集群高效互联;同时支持全局路由智能调度与负载均衡算法,实现了智算场景下网络服务的智能化与弹性化升级,大幅提升大规模分布式训练效率,保障万亿参数模型稳定训练与实时推理。
在模型服务 层,AI智算云基于海若模型工厂平台提供训练数据的数据工程能力以及专业化的大模型开发、评测平台,支持大模型开发全流程打通、数据标注可视化、模型训练自动化管理、异构资源统管与并行训练等能力,同时实时监控模型指标与资源消耗,在流程、效率、质量及成本等多方面全面简化复杂模型训练工作,降低大模型开发门槛。
在智能体服务 层,AI智算云提供智能体开发全流程自动化、训练推理定制化服务,集成海若、Qwen、DeepSeek等近百款通用模型,打造一体化智能体解决方案。同时基于海若大模型面向政务服务、机关办公、城市治理等场景,推出政务智能体、水利监测智能体、安全运维智能体、农事专家智能体、数智员工智能体等多款AI智能体服务产品,依托工具集与海量知识数据,切入基层业务核心痛点,助力组织内部工作效率提升10倍以上,推动“人机协同”深度赋能。
此外,在专业化服务方面,AI智算云以资源支撑中心为核心构建了完善的运行服务体系。全力打通多元异构算力GPU物理机、虚机、容器类型服务所涉及的开通、计费与运维等运营环节,解决GPU运营专业化、云化售卖、算力分散化的痛点,全面满足智算资源需求,保障运行服务稳定。
智能算力作为经济增长的新引擎,推动了从技术创新到服务应用的全流程数字化转型。未来,浪潮云将持续依托分布式智能云战略及人工智能模型工厂,深入推进“人工智能+”行动,不断深耕技术研发,提升产品服务能力,全面助推数字经济高质量发展。原文出处:浪潮云AI智算云服务全新升级,聚势赋能数智化,感谢原作者,侵权必删!