用户名: 密码: 验证码:

中国移动发布《面向超万卡集群的新型智算技术白皮书》,助力智算基础设施迈向新台阶

摘要:在中国移动算力网络大会-算力网络未来产业暨联合体创新论坛上,中国移动重磅发布《面向超万卡集群的新型智算技术白皮书》

  4月29日,在中国移动算力网络大会-算力网络未来产业暨联合体创新论坛上,中国移动重磅发布《面向超万卡集群的新型智算技术白皮书》(简称 “白皮书”),国务院国资委科技创新局副局长贾兴元、中国移动副总经理高同庆联合华为、中兴、新华三、中科曙光、浪潮、超聚变等合作伙伴出席发布仪式,共同见证新型智算技术迈向新台阶。该白皮书由中国移动研究院专家团队牵头撰写,凝聚了中国移动和产业伙伴在超万卡集群建设方面的技术攻关和实践经验,是业界首部系统性阐述超万卡集群核心设计原则和关键技术的白皮书。

  自ChatGPT发布以来,科技界掀起了一场大模型的竞争热潮,各行各业加速从“+AI”向“AI+”转变。随着模型参数量从千亿迈向万亿,大模型对底层算力提出更高要求。当前,智算集群的规模以千卡为主,且多基于英伟达GPU构建,万卡甚至超万卡集群的建设还处于初级阶段,业界普遍认为万卡集群将有助于进一步压缩大模型训练时间,实现模型能力的快速迭代。基于万卡集群实现大模型高效的训练,并长期保持训练的稳定性,是将大模型训练扩展到数万张GPU卡上所要面临的双重挑战。

  中国工程院郑纬民院士表示,“基于国产系统构建万卡集群,虽然很难,但很必要”。为了助力国内智算设施向万卡规模演进,本白皮书提出超万卡集群的五大核心设计原则:坚持打造极致集群算力、坚持构建协同调优系统、坚持实现长稳可靠训练、坚持提供灵活算力供给、坚持推进绿色低碳发展。此外,白皮书进一步从集群高能效计算技术、高性能融合存储技术、大规模服务器间高可靠网络技术、高容错高能效平台技术和新型智算机房设计等五个方面全面阐述了超万卡集群建设的核心技术要求,为国内智算基础设施的建设提供技术建议。

  面向未来,中国移动正大力推进GPU高速卡间互联全向智感OISA、远距跨集群训练、自动化分布式训练框架等技术的快速成熟,为万卡集群的创新突破打下坚实的基础。

  中国移动践行央企责任使命,全面拥抱“AI+”时代,通过白皮书发布,凝聚产业共识,与业界一起应对超万卡集群带来的前所未有的挑战,共同牵引AI产业全面升维,助力新质生产力动能跃迁。

1、凡本网注明“来源:讯石光通讯网”及标有原创的所有作品,版权均属于讯石光通讯网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、免责声明,凡本网注明“来源:XXX(非讯石光通讯网)”的作品,均为转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。因可能存在第三方转载无法确定原网地址,若作品内容、版权争议和其它问题,请联系本网,将第一时间删除。
联系方式:讯石光通讯网新闻中心 电话:0755-82960080-168   Right