用户名: 密码: 验证码:

光计算有望改变游戏规则的AI性能

摘要:美国Lightmatter公司近日在Hot Chips 32上展示了一款测试芯片。该芯片利用硅光电学和MEMS的技术,可以光速在硅中执行矩阵向量乘法,由毫瓦级激光光源提供动力。计算速度比基于晶体管的芯片(包括最新的GPU)提升了数个量级,且功耗非常小。

  据微信公众号“大国重器”报道,美国Lightmatter公司由美国麻省理工学院孵化,主要开发用于人工智能加速的光学计算处理器,近日在Hot Chips 32上展示了一款测试芯片。该芯片利用硅光电学和MEMS的技术,可以光速在硅中执行矩阵向量乘法,由毫瓦级激光光源提供动力。计算速度比基于晶体管的芯片(包括最新的GPU)提升了数个量级,且功耗非常小。

  Lightmatter希望通过展示这款测试芯片来证明其处理器设计方法可靠。该公司是首批展示为人工智能推理工作负载量身定制的光计算(

silicon photonics,硅光子学)芯片的公司之一。Lightmatter将在2021年秋季推出基于这款演示芯片的第一款商用产品,带有光计算芯片的PCIe卡。


图 在PCIe卡上的硅光子学芯片,光通过光纤进入

  硅光子学技术的进步--通过硅芯片传播光--使复杂的片上结构成为可能,可通过控制以完全不同于传统基于晶体管的电子器件的方式执行MAC操作。由于传统基于晶体管的芯片达到了Dennard扩展的极限,单位面积的功耗上升,冷却技术的能力无法跟上更大的芯片。因此,一种更具能效优势的硅光子技术就有了发展空间。

  Lightmatter首席执行官Nick Harris说:“我们通过采用完全不同类型的物理学,使用光绕过了整个功率扩展问题,意味着我们可以使用一套不同的规则进行扩展,所以[光学计算]速度更快,能量更低。”

  到底有多快,能量有多低?

  Harris说:“我们可以将现有人工智能数据中心的能耗降低20倍,将物理体积缩小5倍,这还只是我们正在研发的第一代产品。未来还规划了很长的路线图。”

  Harris强调,这款测试芯片是作为该技术的演示而打造,并不是为了在基准测试上有好的表现。在实际应用中,Lightmatter的量产芯片将击败AI加速市场的领导者Nvidia的Ampere A100芯片。与A100相比,Lightmatter的芯片在BERT和Resnet-50推理等工作负载上的能效将是20倍,吞吐量至少是5倍。

  Lightmatter的芯片由两个裸片垂直堆叠。上面是一个采用12纳米工艺的ASIC,包含存储器并协调控制下方的90纳米光计算芯片。两个裸片均采用格芯(GF)公司标准CMOS工艺制造。

  下方光电处理器有一个64×64的光电矩阵矢量积计算器;数据在芯片上传播的时间不到200皮秒,比需要多个时钟周期的晶体管计算提升数个量级。计算引擎由一个50毫瓦的激光器驱动。根据Harris表示,这种低功耗光计算芯片的好处之一是它可以与控制/内存ASIC进行3D堆叠;而基于晶体管的计算芯片会产生太多热量。堆叠芯片可缩短ASIC上的操作指令存储与光电芯片上的计算部分之间的走线 — 从数据转换器到光计算引擎的总路由不到一毫米。进一步改善了延迟和功率。“这里有一个很好的正向循环,节省功率可让实现叠加,而叠加又可以节省更多的功率。”

Lightmatter的“芯片”是由两个裸芯片堆叠在一起的3D封装。

上面是一个12nm的ASIC,具有内存和控制功能,下面是作为计算引擎的90nm硅光电器件

  DAC接收数字输入信号,将其转换为模拟电压,然后用其来驱动激光器(这项技术在光收发器中已经很成熟)。来自该激光器的光进入计算阵列。计算部分是马赫泽德干涉仪(MZI)。进入MZI的相干光被一分为二,每一半的相位都有不同的调整量。结合不同相位的信号,产生建设性或破坏性的干扰,从而有效地调制通过MZI的光的亮度(这种调制可以被认为是一种乘法运算)。在波导相交的地方,信号有效叠加在一起,这是光MAC的基础。从计算阵列输出的光到达光电二极管,其信号通过ADC输入,以便与数字电路的其他部分连接。

Lightmatter的光学计算阵列由DAC和ADC块组成,用于与其他数字电路相接

  MZI中的关键操作--移动光的相位,通过机械方式实现。Lightmatter公司副总裁Carl Ramey说,该光电芯片采用了纳米光学机电系统(NOEMS)。类似于MEMS器件,波导结构通过蚀刻在下方悬浮,然后通过向其上方和下方的电容板添加电荷来偏转。这就成功地改变了光的相位,达到了要求的量。

  Ramey说:“NOEMS器件具有一些非常惊人的特性,它们的损耗极低,静态功率耗散几乎为零。我们只需将一些电子倾倒到小电容上,几乎没有漏电现象--电容足够小,用于致动的动态功率也非常小......。[结构]也可以以相对较高的速度致动,最高可达数百兆赫兹。”

  Ramey说,Lightmatter的演示器有64×64个计算单元,但这很容易扩大规模。“与基于晶体管的收缩阵列类似,计算量随面积线性缩放,延迟也是随着阵列的维度而缩放的。所以在一个典型的流水线晶体管设计中,你需要64个时钟周期来执行这里的操作,从左到右。我们的延迟也是随着阵列维度而缩放的,但我们的速度要快三个数量级。所以即使是一千乘一千的阵列,其延迟时间也会远低于纳秒。”

  有趣的是,光计算阵列消耗的功率与面积的平方根成比例。这是因为功耗主要归于数据转换。“当我们向阵列中添加新计算单元时,我们获得了更多的性能,但在功率方面我们只支付了平方根,因此,建造的芯片越大,实际上的能效也越来越高效。这与电子系统非常不同,电子系统只能线性扩展——更多的性能,更多的功耗。”

  除了与计算相关的能量,还有在芯片上移动数据所涉及的能量(今天基于晶体管的大型人工智能芯片在硅片上移动数据可能会消耗50-100W)。有了光学计算,以光学方式移动数据就意味着不需要功率,这是一个巨大的功率节省。其结果是,一个器件的工作功率不到3W,是其他计算方法每次推理操作所需能量的一小部分。

  光计算的另一个有趣的特点是多路复用的能力。多个独立的数据流可以被编码到不同波长的光上,类似于光通信中使用的技术,并同时输入到计算引擎中。这意味着一个光计算芯片可以同时进行多个AI推理。Harris说:“这是光学计算的一个非常独特的属性,这意味着你有一个物理资源,一个处理器,但它就像一个处理器阵列一样工作。”虽然指定频谱(1310至1600nm)理论上至少可以容纳1000个通道,但Harris表示,由于激光技术相对不成熟,目前只能容纳8个通道。

  Lightmatter目标客户是数据中心,包括高性能计算等扩展系统,不过未来可能会扩大;自动驾驶是远期的路线图,但Harris承认,进入这一领域所需的可靠性工程将是“一项巨大的工程”。

  Lightmatter有一个完整的软件栈,可以与TensorFlow或Pytorch集成;Harris表示,他们的目标是与这两个机器学习框架即插即用。

  Lightmatter成立于2017年,目前有46人,位于马萨诸塞州波士顿,已经从包括谷歌风投在内的投资者那里筹集了3300万美元的资金,并拥有30项专利。对于这家初创公司来说,首先面临的挑战之一可能是向持怀疑态度的客户推销整个光计算的概念。Harris说:“这是一个高难度的挑战,自20世纪60年代以来,在计算的历史上,从来没有一种技术能够取代电子晶体管进行计算。它从未发生过。人们曾经尝试过,但没有成功。我认为,这是第一次,你会看到它发生,我们销售它的方式是通过展示它的工作而进行。”

内容来自:讯石光通讯咨询网
本文地址:http://www.iccsz.com//Site/CN/News/2020/09/03/20200903005841026263.htm 转载请保留文章出处
关键字: Lightmatter
文章标题:光计算有望改变游戏规则的AI性能
【加入收藏夹】  【推荐给好友】 
免责声明:凡本网注明“讯石光通讯咨询网”的所有作品,版权均属于光通讯咨询网,未经本网授权不得转载、摘编或利用其它方式使用上述作品。 已经本网授权使用作品的,应在授权范围内使用,反上述声明者,本网将追究其相关法律责任。
※我们诚邀媒体同行合作! 联系方式:讯石光通讯咨询网新闻中心 电话:0755-82960080-168   Right

相关新闻

暂无相关新闻