ICC讯(作者:Gary Hilson)——Credo Technology Group旗下OmniConnect系列的首款产品旨在提升内存带宽和内存密度,以优化加速器和XPU在AI推理工作负载中的计算效率。
Credo高级产品副总裁Don Barnetson在发布会上向EE Times表示,该公司的Weaver是一款内存扩展芯片,旨在克服AI推理工作负载中的内存瓶颈。随着数据中心对可扩展性、带宽和效率的需求持续增长,这些瓶颈问题日益凸显。
"AI推理对行业提出了一系列新挑战。"他指出,内存数量和吞吐量已日益成为AI推理工作负载的限制因素,而非计算能力。"推理工作负载面临的挑战在于,它们与训练工作负载不同,对内存需求极高。理想情况下,无论模型多大,都希望它能完整地围绕一个计算引擎运行。"
Barnetson表示,LPDRR5和GDDR内存受限于带宽、密度和功耗,而高带宽内存(HBM)对许多应用来说往往过于昂贵且不易获得。正是这些因素推动了Weaver的开发。
突破内存限制的技术路径
Credo的Weaver芯片集成了112G VSR SerDes、轻量级成帧器、LPDDR5X物理层接口,支持XPU供应商的DRAM延迟绑定,同时具备小芯片就绪设计。来源:Credo
这款内存扩展芯片结合了先进的112G超短距(VSR)SerDes技术和Credo的专有设计,将I/O密度提升高达10倍。Barnetson表示,公司采用非常规架构,利用LPDDR5X内存实现了高达6.4TB的内存容量和16TB/s的带宽。
Barnetson以Sora 2为例说明了当前推理工作负载面临的内存限制,指出Weaver正是为了应对将整个代码库上传至引擎时产生的内存压力。"Sora 2只能生成15到20秒的视频片段,因为之后就会耗尽内存。"
他表示,过去解决这一问题的方法是在推理IC周围的大型基板上放置LPDDR内存。"这种方法受限于基板上能容纳多少内存。"最多只能配置16个内存堆栈,容量上限为256GB内存和1.3TB带宽。"最终结果是芯片的所有接口都被内存占据。"Barnetson说。
他补充道,Weaver是Credo的低成本解决方案,通过使用SerDes而非典型的宽并行接口传输数据,将内存从基板上移开。
精简CXL协议实现低延迟
Barnetson介绍,Credo开发了一款传输距离达250毫米的SerDes,其接口密度高达约每毫米2太比特,同时功耗极低,约为每比特1皮焦耳。
他表示,下一步是增加数据链路层,这利用了CXL协议。"我们对CXL进行了精简,将其置于功耗低得多的SerDes之上。我们保留了CXL的精髓。"Weaver保留了开销较低的CXL FLIT结构,但舍弃了速度跳变等其他功能。Barnetson表示,Credo希望创建一个高效的AXI over SerDes映射,同时保持灵活性——任何操作都可以通过OmniConnect在本地完成。
"我们这样设计是为了实现极短的延迟,往返延迟约为40纳秒。"
他说,任何可以通过DDR控制器和ASIC完成的操作,现在都能通过Weaver芯片实现。这款扩展芯片允许将SerDes通道连接到具有内存接口的芯片上。"它实现了物理扩展,让你可以在服务器级别部署内存,而不仅仅是封装内部。"
Barnetson表示,这种方法允许将内存放置在距离芯片最远10英寸的位置。"可以将内存密度提高约30倍。"
他补充道,Weaver乃至整个OmniConnect系列的目标之一就是使其面向未来,因为很难预测几年后AI的需求。"只需在外部放置大量OmniConnect接口,三年后制造电路板时,你就可以决定要配置多少内存和多少网络。"
整合光学互联技术
Credo近期收购了Hyperlume,这是一家开发用于芯片间通信的microLED光学互联技术的公司。该公司的技术利用超快microLED和超低功耗电路,克服了传统电子互联固有的能耗和带宽瓶颈。
Barnetson表示,Credo将把Hyperlume的microLED技术整合到其产品组合中,进一步扩展AI网络的扩展选项。"我们将支持microLED近端口光芯片,因此可以选择其中一些通道用于microLED通信,或标准的纵向扩展和横向扩展通信。"
关于作者
Gary Hilson是一位自由撰稿人和编辑,为北美各地的印刷和数字出版物撰写了大量文章。他感兴趣的领域包括软件、企业和网络技术、研究和教育、可持续交通以及社区新闻。他的文章曾发表在Network Computing、InformationWeek、Computing Canada、Computer Dealer News、Toronto Business Times、Strategy Magazine和Ottawa Citizen等媒体。