1. 首页>>分享

AI芯片功耗影响大,冷却技术革命急需,边缘AI面临挑战

图片

AI芯片的功耗会直接影响企业成本,其发热量会直接影响企业风险,同时也会对芯片的稳定性和寿命产生影响。要是芯片因为过热或者短路而频繁出现问题,那么AI的训练效果会受到严重影响,其推理效果也会受到严重影响,并且AI的训练效率会受到严重影响,其推理效率同样会受到严重影响。

冷却技术革命,显得十分急需。

01

AI芯片的功耗危机

统计数据表明,2015年全球数据量大概是10EB(艾字节),预计到2025年这个数据量会急剧上升到175ZB(泽字节),到2035年的时候,有可能达到令人震惊的2432ZB。不过,边缘AI的发展存在两大挑战。其一,要在性能、功耗以及成本之间达成平衡。在提升算力时,怎样在不把功耗和成本推到合理限度的情况下取得最佳效果,特别是在电池供电的低功耗设备中呢?其次,构建强大的生态系统非常关键。就像CPU和GPU的发展那样,一个包含工具链、语言、兼容性以及易开发性的统一生态系统,对推动AI技术的普及和规模化应用很重要。

GPT和类似的AI机器人所使用的用来生成类人对话的大型语言模型(LLM),只是众多新型AI应用中的一个。这些新型AI应用依赖“并行计算”。“并行计算”是指由芯片网络同时执行多项计算,或者处理海量计算工作的一种方式。

人工智能基础设施的核心是GPU(图形处理单元),GPU擅长处理人工智能所需的专业高性能并行计算工作,与个人电脑中使用的CPU(中央处理器)相比,GPU强大的处理能力会导致更高的能量输入,进而产生更多的热量输出。

图片

高端GPU的功率密度大约是CPU的四倍,这给数据中心规划带来了新的重大问题,因为最初计算的电源如今仅为运行现代AI数据中心所需电源的25%,即使是亚马逊、微软和Alphabet用于云计算的尖端超大规模数据中心,也依旧是由CPU驱动的。举例来说,Nvidia目前提供的A100 AI芯片,每块芯片恒定功耗约为400W,其最新微芯片H100的功耗几乎是A100的两倍,达到700W,这与微波炉的功耗相似。一个超大规模数据中心拥有平均一百万台服务器,若用这些类型的GPU替换其当前的CPU服务器,所需功率将增加4至5倍(1500MW),这相当于一座核电站!

功率密度提升,这意味着这些芯片产生的热量会显著增加,所以冷却系统必须更强大,如此规模的电力和冷却变革要求未来人工智能驱动的数据中心进行全新设计,这会导致底层芯片和数据中心基础设施出现巨大的供需失衡。业内专家进行了预测,考虑到数据中心建设所需的时间,我们正处于数据中心十年现代化升级的初期阶段,这一升级旨在让数据中心更加智能化 。

图片

美国数据中心用电量增长(千兆瓦)

02

台积电3DVC技术

台积电的3DVC技术,也就是三维均热板技术,是一种先进的散热解决方案,它针对高性能计算和AI芯片,目的是解决先进制程芯片的问题,像3nm/2nm这类先进制程芯片,因集成度提升,导致功耗和发热密度激增 。

传统均热板呈二维平面结构,台积电的3DVC采用立体化设计,于芯片封装内部直接集成多层微流体通道,借助相变传热(液体蒸发 - 冷凝循环)快速导出热量。

三维毛细结构,其内部采用多孔金属泡沫,增强工质的毛细回流能力,工质比如水或氨,其内部也采用微柱阵列,增强工质的毛细回流能力。

近结散热:直接和芯片的硅中介层相接触,直接和3D堆叠结构(如SoIC)相接触,以此缩短热传导路径。

3D-VC散热器热管是一维线性的传热器件,常规VC均热板有蒸发段和冷凝段,根据设计位置不同,散热路径有多种分布可能,这使常规VC均热板成为二维传热器件,不过其散热路径仍局限在同一平面内。3D-VC散热器的热传导路径呈三维状,是立体结构,并非平面,这与一维热传导的热管、二维热传导的VC均热板不同。3D-VC散热器借助VC与热管相结合,让内部腔体连通,通过毛细结构达成工质回流,进而完成导热。连通的内部腔体与焊接翅片共同构成整个散热模组,使该散热模组实现了水平以及垂直等多维度的散热 。

热管、VC、3DVC对比图显示,3D-VC散热器具有多维度的散热路径,在应对高功耗设备热量时,它能够接触更多发热源,还能提供更多散热路径。传统散热模组中,热管与VC均温板属于分离式设计,热阻值会随导热距离增加而增加,所以散热效果不甚理想。热管延伸至VC均热板本体中,VC均温板的真空腔体与热管连通,内部工质连接,3D-VC散热器与热源直接接触,垂直的热管设计提高了传热速度。

3DVC能够嵌入台积电的CoWoS 2.5D/3D封装里,为CPU、GPU、HBM提供一体化散热,台积电在IEEE国际电子器件会议上展示3DVC原型,它可使3nm芯片结温降低15°C以上,该技术计划与CoWoS-L封装技术同步应用于AMD、NVIDIA的下一代产品。

03

冷却方案差异

液冷是高功率下唯一可行的解决方案。

通过一定体积的液体流动来传递热量,其效率远远高于通过相同体积的空气传递热量,水的效率约为空气的3600倍,这使得利用芯片散热器进行液冷成为一种高效的方法,当芯片每平方厘米面积的散热量超过约50瓦时,通常就需要采用液冷,鉴于GB200的面积约为9平方厘米,任何超过450瓦的散热量都表明需要泵送液冷。在“直接芯片”冷却里,液体借助热界面与芯片散热器的冷板通道相连并流动。当液体在此过程中不发生蒸发时,这种情况被称作“单相”操作,在“单相”操作中,介质(一般是水)会被泵送经过由风扇冷却的热交换器。Flex旗下公司JetCool提供直接芯片液体冷却模块,该模块运用小型流体喷射阵列,它能精确瞄准处理器上的热点,以此在芯片或设备级别提升高功率电子冷却性能。

热量能够转移至第二个液体回路,这个回路能够为建筑物供应热水,还有可能为当地消费者供给热水。两相操作借助让液体(一般是氟碳化合物)在吸收热量之际蒸发,随后在热交换器处再度凝结,进而提供更佳的传热效果。这种方法能够显著提高性能。然而,仍然需要系统风扇来冷却其他组件,某些组件(比如DC/DC转换器)可使用自身基板集成到液体冷却回路中。这符合“垂直供电”概念,DC/DC转换器直接位于处理器下方,目的是最大限度减少压降。直接芯片方法的实际限制是芯片与冷却板之间界面的热阻。精确的表面平整度是必要的,高性能焊膏也是必要的,然而在数千瓦级功率的情况下,温差依旧是一个问题。

这一限制似乎快要对散热造成限制了,进而会影响性能。能够考虑采用浸入式冷却技术。把整个服务器放置在一个开放式的介电流体槽里,介电流体经由储液器绕环路被泵送到热交换器。同样,为了获取最佳性能,可采用两相运行。

IBM采用的是嵌入式微通道相变冷却技术,而非浸入式冷却技术。IBM把介电液直接泵入到任意级别芯片堆叠的约100μm的微观间隙里,借助介电液从液相沸腾到气相来带走芯片产生的热量。他们针对用此技术改造后的IBM Power 7+芯片展开测试,测试结果显示结温降低了25℃。

为实现嵌入式冷却,IBM拆除了处理器的封装盖子,从而暴露出裸片,接着对裸片进行深度反应离子蚀刻(DRIE),随后在其背面构建了120μm深的冷却通道结构,再将一个玻璃片粘合到被蚀刻的芯片上,以此形成微通道的顶壁,最后用粘合剂把冷却剂入口、出口黄铜歧管粘合到玻璃歧管芯片和有机基材上。冷却剂进入模块,冷却剂通过24个入口,冷却剂在相应的24个径向扩展通道中分配流量。

图片

英伟达:硬件级冷却集成(NVLinkC2C技术)

Blackwell发布,这标志着AI硬件领域进入一个新纪元,其强大性能能为AI公司提供前所未有的计算支持,有助于训练出更复杂、更精准的模型,基于Blackwell的AI算力会以名为DGX GB200的完整服务器形态提供给用户,该服务器结合了36颗NVIDIA Grace CPU和72块Blackwell GPU,这些超级芯片通过第五代NVLink连接成一台超级计算机来提高整体计算性能。英伟达推出了全新的计算集群DGX GB200 SuperPod,目的是为了更好地支持GB200超级芯片的应用,这一超级计算集群采用了新型高效液冷机架规模架构,它能够在FP4精度下提供惊人的算力,还能在FP4精度下提供惊人的内存容量。英伟达借助DGX GB200 SuperPod,会为各个行业给予强大的AI计算能力,推动AI工业革命发展,再度彰显其在AI领域的领先位置与创新本领。

具体来说,NVLINK是一种高速互联技术,它是专门设计用来连接NVIDIA GPU的。它允许GPU之间通过点对点的方式进行通信,这种通信绕过了传统的PCIe总线。通过这种方式,实现了更高的带宽以及更低的延迟。NVLINK能够用于连接两个或者多个GPU,以此来实现高速的数据传输与共享,进而为多GPU系统提供更高的性能和效率。

GB200 NVL72具备18个1U服务器,它所提供的FP8性能达到720 petaflops,FP4计算性能为1440 petaflops,能够处理多达27万亿个AI LLM参数模型。每台服务器里带有两个GB200 Grace Blackwell Superchip,这些计算节点带有1.7TB的HBM3E内存,内存带宽为32TB/s,为应对功耗过于强大的问题,NVIDIA选择全部采用液冷MGX封装,采取液冷机架级解决方案。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/275779.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息