简介
亚马逊、谷歌、Meta、微软、甲骨文和 Akamai 等世界领先的Hyperscaler云数据中心公司正在推动专为云计算设计的芯片架构的快速创新。为了在更小的面积内容纳更多的计算能力,同时降低冷却成本,这些公司正在采用针对特定数据类型和工作负载进行优化的异构多核架构。
这一趋势紧随移动设备的脚步,因为移动设备必须应对狭小的占地面积以及严格的功耗和散热要求。Quadric 市场营销副总裁 Steve Roddy 指出:"英特尔等行业巨头的单片机几乎在每个产品代码中都有人工智能 NPU。当然,人工智能先驱英伟达(NVIDIA)长期以来一直在其大获成功的数据中心产品中混合使用 CPU、shader(CUDA)内核和张量内核。未来几年向芯片组的转变将彻底巩固这一过渡。”
定制架构的经济性
随着传统扩展的优势不断缩小,以及先进封装技术的成熟(先进封装技术允许许多以前受限于微粒尺寸的定制功能),每瓦特和每美元性能的竞争已进入白热化阶段。这导致针对不同工作负载进行优化的定制架构激增。
西门子 EDA IC 市场总监 Neil Hand 解释说:"如今,每个人都在构建自己的架构,尤其是数据中心的参与者,而处理器架构很大程度上取决于工作负载的外观。与此同时,这些开发人员也在询问加速的最佳途径是什么”。
一些公司专注于多核并行,而另一些公司则以提高内存带宽为目标。许多公司正在为数据处理、矩阵运算和压缩/解压缩等任务开发专用加速器。
异构多核架构
由此产生的芯片架构是混合了通用 CPU、GPU 和固定功能加速器的异构多核设计。正如 Synopsys 公司 ASIP 工具产品经理 Patrick Verbist 所描述的那样:
“它们是异构多核架构,通常是通用 CPU 和 GPU 的混合,具体取决于公司类型,因为它们偏好其中一种。然后是具有固定功能的 RTL 加速器......这些加速器运行的应用负载类型一般包括数据操作、矩阵乘法引擎、激活函数、参数的压缩/解压缩、图形的权重等。”
为了支持不断变化的工作负载要求,许多公司正在采用特定应用指令处理器(ASIP),这种处理器可以定制数据通路和指令集。
“ASIP允许定制运算器,因此数据路径和指令集只能以比普通DSP更有效的方式执行有限的一组运算,”Verbist说。“如果你看 GPU,它必须支持各种工作负载,但不是所有的工作负载。这就是 ASIP 发挥作用的地方,它支持灵活性和可编程性。
适应人工智能/ML 工作负载
人工智能和机器学习的兴起是这种架构多样性的主要驱动力。Fraunhofer IIS 高效电子学负责人 Andy Heinig 说:"AI/ML 的需求将加速开发新的特定应用架构的进程。传统的 CPU 如果能提供更好的内存接口来解决内存问题,就能成为这场革命的一部分。如果 CPU 能提供这种新的内存架构,那么 AI/ML 加速器就能成为与 CPU 并驾齐驱的数据中心最佳解决方案。”
Arm正在与AWS、谷歌和微软等超大规模厂商直接合作,优化其基于Neoverse的AI/ML和高性能计算解决方案。“Arm 基础设施产品线产品管理高级总监 Brian Jeff 说:”CPU 上推理非常重要,我们看到合作伙伴正在利用我们的 SVE 管道和矩阵数学增强功能以及数据类型来运行推理。
GPT-3 等大型语言模型所需的巨大模型尺寸也推动了新的架构考虑。Synopsys 首席产品经理 Priyank Shukla 解释说:
“以 GPT-3 为例,它有 1,750 亿个参数。每个参数的宽度为 2 字节,即 16 位。您需要在 2 个字节中存储如此多的信息--1750 亿个参数,相当于 3500 亿字节的内存。这些内存需要存储在共享该模型的所有加速器中,而该模型需要放置在加速器的结构中......你需要一个结构,它可以接受这个更大的模型,然后对其进行处理。”
这些大型模型的某些部分可以在多个芯片或机架上并行处理,而其他部分则必须通过低延迟访问完整模型来串行处理。
图 1 显示了一个 ML 优化服务器机架的示例,旨在高效处理此类大型模型。
多芯片要求
为了集成所有必要的计算元件(CPU、GPU、定制加速器、高带宽内存等),同时管理电源和散热,多芯片或基于芯片的方法变得重要。
“Synopsys 研发总监 Sutirtha Kabir 说:”整个行业正处于一个拐点,你不能再回避这个问题。“我们在后台谈论摩尔定律和‘SysMoore’,但设计人员必须在 CPU 和 GPU 中增加更多功能,而由于微粒尺寸限制、产量限制等原因,他们根本无法在一个芯片中实现这些功能。多芯片在这里是不可避免的。
多芯片设计为分区、芯片间同步、热管理和 3D 平面规划带来了新的挑战。“卡比尔解释说:”你要把一栋单层房屋变成三层或四层。卡比尔解释说,"但还有其他设计挑战。你不能再忽视散热问题了......如果你在平面规划时不考虑散热问题,你的处理器就会烧毁。
在最近的 ISSCC 会议上,Ansys 产品营销总监 Marc Swinnen 说:"这些数据中心耗电量巨大。我参加了在旧金山举行的 ISSCC 会议,我们的展台就在英伟达公司旁边,英伟达公司正在展示其人工智能训练箱--一个装有八个芯片、大量风扇和散热片的大箱子。我们问它的耗电量有多大,他们说:'哦,最高时有 1 万瓦,但平均也有 6000 瓦。'电力真是越来越疯狂了。
采用系统方法
为了应对这些多方面的设计挑战,需要采用一种全面的系统级方法,涵盖指令集、微架构、内存子系统、互连等。
“Arm 的 Jeff 说:”完整的系统方法使我们能够与合作伙伴合作,根据现代工作负载和工艺节点定制 SoC 设计,同时利用基于芯片的设计方法。“这种定制芯片设计方法使数据中心运营商能够优化其电力成本和计算效率。”
西门子的 Hand 还强调了系统级分析和优化的重要性:“应用的系统级协同设计已经变得非常重要,而且由于高性能计算不再像以前那样容易获得,因此它变得更加容易获得。这是一个带轮子的数据中心”。
未来之路
这种架构演变的方向很难预测,但很明显,“高性能计算 ”的定义将继续扩大。
“一旦你开始打破冯-诺依曼架构,开始使用不同的内存流,开始研究内存计算,它就会变得非常酷。然后你会说,'高性能计算到底意味着什么?
集成硅基光电子技术、跨机架的统一内存架构和非冯-诺依曼计算模型等因素可能会从根本上重塑数据中心系统拓扑结构,并重新定义什么是最佳架构和性能。
可以肯定的是,随着全球最大的科技巨头继续进行军备竞赛,为未来呈指数级增长的人工智能/移动计算和传统计算工作负载提供领先的性能、效率和可扩展性,云数据中心芯片设计的创新步伐只会加快。
参考文献
[1] B. Smith, "Architecting Chips For High-Performance Computing," Semiconductor Engineering, May 15, 2024. [Online]. Available: https://semiengineering.com/architecting-chips-for-high-performance-computing/. [Accessed: May 23, 2024].
新闻来源:逍遥设计自动化