2026年3月11日消息:

人工智能算力激增背后的液冷管路技术

最新高纬度讯息,请点击下图围观:

0

分享至

用微信扫码二维码

分享至好友和朋友圈

(本文编译自Electronic Design)

人工智能工作负载的算力需求正呈爆炸式增长,本能的应对思路似乎是新建更多数据中心,但这一策略的落地难度正不断加大。除了超大型数据中心建设面临的实际难题,电网的承载能力本就有限,就连电网接入环节也遭遇诸多阻碍。再加上新建设施的资金与环境成本,显然,单纯依靠规模扩张并非解决问题的良方。

另一种更有效的策略虽非简单易行,却是通过针对性的基础设施升级,从现有场地中挖掘更多性能潜力。这类升级能够拓展设施容量、提升运行效率并加快部署速度。

但这一过程面临着核心挑战:新一代图形处理器(GPU)及其他人工智能加速器的功耗与散热量持续攀升。这样的跨越式增长让传统设计彻底过时,也迫使基础设施建设策略发生根本性转变。以英伟达GB200为例,其单个模块整合了两颗Blackwell GPU与一颗Grace CPU,功耗最高可达约2700瓦,这一数据直观体现出下一代人工智能系统的热负荷正以何等迅猛的速度增长。

但只要在冷却、供电与机柜级集成方面采取科学合理的方案,数据中心运营方也可无需新建设施,就能显著提升计算密度与整体性能。

数据中心计算密度的制约因素

传统数据中心的设计大多无法满足大语言模型及其他高密度人工智能工作负载的需求,在现有环境中进行算力扩容,会面临四大关键挑战:

  • 空间限制:现有机柜布局的物理承载能力不足,无法适配当下的高密度配置方案。

  • 供电约束:传统配电单元与开关设备的设计初衷,并非为功率密度达60至120千瓦乃至更高的机柜供电。

  • 冷却低效:即便以最大风量运行,传统风冷系统也无法散除现代人工智能处理器产生的热负荷。

  • 可持续发展压力:随着数据中心在全球电力消耗中的占比持续攀升,运营方面临着监管机构、投资者和客户日益严苛的能效提升要求。

上述每一项制约因素,都会影响数据中心的可靠性、运行时长与投资回报率。工程师和系统集成商正探寻在不中断业务的前提下实现性能提升的方法,而在每一度电、每一平方英尺空间都至关重要的情况下,这绝非易事。

直芯片液冷技术为人工智能释放更强算力

冷却系统是高性能计算最直接、最突出的制约因素,风冷系统已触及实际应用的极限。即便配备架空地板、冷热通道隔离和优化的气流设计,传统风冷架构也无法匹配人工智能级芯片的散热需求。

直芯片液冷技术应运而生,成为潜在的解决方案。该技术将冷却液直接输送至芯片表面,精准针对发热点散热,大幅提升热传递效率,稳定CPU和GPU的工作温度,同时最大限度减小会影响性能的温度梯度。

尽管具备技术优势,液冷技术却常被误解为需要对基础设施进行大规模改造,但实际并非总是如此。

一体式闭环液冷系统能提供一种务实、渐进的实施路径。这类系统可直接集成至标准服务器配置中,在1U机型中支持最高1200瓦功耗,2U机型中可达1500瓦及以上,且无需额外的外部管路和分配单元。运营方无需改变现有机柜布局和电力预算,仅通过大幅降低气流需求,平均就能实现15%的能耗节省。

对于新建数据中心或大型设施升级项目,园区级液冷系统值得重点考量。该类系统单插槽可支持超3000瓦功耗,机柜算力密度最高可接近1兆瓦。

虽然管路式液冷系统需要配套更多基础设施,单机柜占用的物理空间也可能更大,但能让企业在现有数据中心的整体占地面积内,大幅提升计算密度。这意味着该方案无需扩建设施,就能实现人工智能工作负载的算力扩容。尽管前期投入成本更高,但其长期投资回报率颇具吸引力,算力密度更高、能耗更低,系统可靠性也能得到提升。

对于希望不新建数据中心却实现性能最大化的企业而言,围绕先进冷却技术进行设计,既能大幅提升能效,也能为规模化人工智能应用打造具备未来适应性的基础设施。

液冷技术的部署并不是非全即无的选择。运营方可从小规模起步,部署能与现有环境无缝集成的一体式系统。通过提升芯片层面的热传递效率,这类方案能释放新的性能余量,让现有场地内的算力密度更高、性能更优、能效更好。本质而言,液冷技术实现了在不扩大空间、不增加电力预算的前提下,提升计算密度的目标。

为兆瓦级机柜重新设计配电与供电体系

仅凭冷却技术创新,无法解决下一代计算架构的诸多挑战。随着机柜密度突破120千瓦,且超大规模数据中心已将1兆瓦级机柜架构纳入发展规划,整个行业亟需从根本上重新思考供电与配电的实现方式。许多传统数据中心仍在使用为5至15千瓦负载设计的配电单元和开关设备,与人工智能优化型基础设施的需求愈发脱节。

这种供需错配已成为电力供应层面的重大隐患。升级电力架构不再是可选项,而是实现算力扩容、能效提升与系统韧性的必要前提。高效配电单元、直流母线、模块化电源架以及解耦式电源机柜平台,正为人工智能工作负载提供更安全、更高效的供电支持。

超大规模数据中心企业正引领基础设施解耦的变革趋势,将电力、冷却与IT系统拆分为模块化、可独立扩容的组件。以谷歌的Mt. Diablo项目为例,该项目推出了可输出±400伏直流电的交直转换附置电源机柜,单机柜供电能力可达1兆瓦,同时释放出IT机柜内部的宝贵空间,用于部署计算设备。这一方案让运营方无需扩大物理占地面积,即可提升算力密度。

如今,这一创新理念正吸引更多解决方案提供商加入生态体系。像伟创力等企业不仅是被动响应市场需求,更在主动构建未来的基础设施架构。

智能电源管理:人工智能体系中被忽视的关键环节

电源的管理方式同样至关重要。闲置容量,即因配电不均造成的能源浪费,正悄然侵蚀着运营效率。软件定义的模块化电源系统支持电力动态分配,确保电力精准输送至所需之处。这一方式不仅能提升电力利用率与系统可靠性,还能降低过度配置的风险,减少不必要的资本开支。

随着数据中心逐步采用直流配电模式,固态变压器等技术正着力简化电力转换环节。这类技术有助于提高能源效率,并大幅缩减配电室的占地面。据伟创力预测,到2030年,配电室面积最多可减少90%。这能带来两大显著优势:一是在更小空间内实现同等供电容量,降低建设成本;二是在现有空间内增设更多机柜,提升计算密度。

对于系统集成商而言,核心挑战是在不中断业务的前提下完成部署。停机检修不是最优解。正因如此,行业正逐步转向热插拔、正面维护的设计方案,让运行中的机房能更便捷地开展设备安装与维护工作。

机柜级集成:冷却、供电与计算的融合核心

唯有当冷却、供电与计算系统打破孤岛式运行模式,在机柜层面协同工作,才能真正实现计算密度的提升。具有前瞻性的行业先行者不再独立对待各子系统,而是采用一体化架构,将这些功能整合为统一的生态体系。

基于这一思路,依托开放标准打造的集成机柜能实现跨代硬件的互操作性,简化运维工作;同时液冷设计可保障最佳的散热性能。即便芯片的热设计功耗持续攀升,该架构也能支撑算力的长期扩容需求。

其中最有效的实施方案之一,是部署一站式垂直集成液冷机柜解决方案,即将供电、热管理与信息技术硬件整合为一套预先设计调试完成的一体化系统。这类方案无需进行复杂的多厂商设备集成,部署速度更快、运维流程更简化,且责任归属清晰统一。

合作同样至关重要。与能提供全套机柜级集成系统的解决方案提供商携手,搭配匹配的冷却、供电和计算组件,数据中心运营方可获得单一对接窗口与标准化的保修服务。这一模式能拆解复杂的集成环节、降低实施风险、加快部署进度,让数据中心摆脱传统集成工作的困扰,实现更快的算力扩容。

对于系统集成商而言,这类架构创造了全新的价值增长点,可通过互操作性测试、性能验证,以及为优化人工智能工作负载部署预集成机柜解决方案,为客户提供专业服务。将先进的液冷技术与高效供电方案相结合,即便计算输出持续提升,运营方也能降低整个设施的能耗;相较风冷系统,机柜级的功耗可降低数千瓦。

这些能效提升能直接转化为单位面积更高的计算密度。当冷却与供电系统的运行效率提升后,机柜可承载更高的功率与热负荷,且不超出设施的承载上限。这意味着单位建筑面积能部署更多计算设备,最大化挖掘现有场地的价值,在不扩大数据中心占地面积的前提下实现性能的大幅提升。

高压直流母线与钛级电源进一步提高了电力转换效率,减少废热产生,同时降低了后续的冷却需求。

有限空间内的新型基础设施布局

未来的数据中心无需扩大规模,即可满足人工智能的算力需求,只需进行更具策略性的设计。通过针对性升级基础设施,运营方可在现有场地内,释放出支撑人工智能工作负载所需的计算密度与性能。

冷却与供电是重中之重的切入点。工程师与系统集成商携手应对这些挑战,采用集成化、模块化、适配液冷的设计方案,便能让数据中心的升级与新一代计算硬件的迭代同步推进,从而为功耗日益攀升的人工智能解决方案提供可靠支撑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

返回网易首页
下载网易新闻客户端

返回顶部