数据中心液冷技术发展趋势与分析

  • 随着能源紧张和环境保护的重要性日益凸显,液冷技术的高效节能特点使其成为可持续发展的重要解决方案;
  • 从技术上来看,短期内冷板式液冷技术将得到快速发展;
  • 从中期来看,单相浸没式液冷技术将成为主流。

Part.1/ 为什么要有液冷?

散热技术在数据中心中发挥着重要作用。人之所以能成为万物之灵,是因为人类拥有强大的大脑和强劲有力的肌肉,能够直立行走,并且常常被忽视的是,人类还具备了动物中最强大的散热能力。

可以想象,例如猎豹能以每秒120公里的速度奔跑,但只能持续奔跑60秒。如果猎豹在这60秒内未能捕捉到猎物,就必须放弃这次捕猎。如果它一天内多次以如此高速爆发,但却无法获得食物,它可能就会死亡。然而,人类又是如何做到的呢?如今许多人参加马拉松比赛,跑得好的大概用时两三个小时,跑得不好的也许用时六个小时,但他们都能坚持到终点。这是因为人类拥有出色的散热能力,这为人类提供了强大的持久力(续航能力)。

在数据中心的环境中,散热对于整个数据中心和基础设施的稳定性至关重要。同时,我们也追求以最少的电力来确保整个IT系统的可靠运行。

再做个类比,人类在散热方面采用了多种技术。例如,我们通过呼吸、皮肤、发达的汗腺和血液循环等自身机制来进行散热。除了这些内在的散热机制外,由于人类是万物之灵,我们还可以利用外部力量来辅助散热。举个例子,如果我觉得会场提供的空调还不够凉爽,我可以冲个淋浴来通过水喷淋的方式散热,或者还可以选择去游泳。

就像"液冷‘泳’向前"这一主题,游泳是最终极的散热方式。当我们讨论论液冷技术时,很多人将使用液体进行散热的部分都称为液冷技术,但实际上真正的液冷技术应该是指数据中心内部循环系统中的一部分,即如何将IT设备产生的热量传递到外部冷源循环系统中的内部循环部分。

关于液冷技术的核心要点,例如每平方厘米的散热量等,这些都是讨论液冷技术时所面临的关键难题。同样地,人脑在人体中所占的功耗大约为20%,约24瓦。尽管看起来并不多,但当大脑高速运转思考时,会感到脑袋发热,头部最容易出汗。此外,当脑袋过热时,思考速度会变慢。这实际上说明了人脑作为身体中最重要的组成部分,而其散热能力也是维持整个系统稳定运行的关键因素。

Part.2/ 液冷为何成为一个爆发性增长的点?

催生液冷需求的原因——技术瓶颈、成本、可持续发展。

关于催生液冷需求的原因,首先是由于IT技术的发展需求,风冷技术已经达到了散热的瓶颈。同时,例如在CPU和GPU方面,CPU的功耗从2017年的205瓦增加到今天的350瓦,增长速度相当快。未来可能发展到更高瓦数,比如达到500瓦或600瓦的水平,这已经是难以想象的数字。

另外,GPU的最新版本H100已经达到700瓦。在许多情况下,风冷技术无法有效解决如何保持芯片稳定工作的问题。此外,英伟达的相关测试结果表明,在相同性能条件下,液冷技术可以降低30%的能源消耗。

30%的能源节约意味着什么呢?首先,对于整个数据中心而言,能源消耗的大幅降低是非常重要的。满足PUE的要求,降低能源指标。对于企业来说,最重要的是,这意味着在有限的资源情况下,可以获得更强大的计算能力。在接近20%-30%的临界点,很多事情都会成为企业是否能够可持续运营的核心转折点。

此外,液冷技术还具有节能的优势。节能意味着更低的运行成本,可以在获取能源指标时节约成本。也意味着在供电方面,电力指标可以得到更有效的利用。

正如之前许多专家所讲述的,根据一体化大数据建设的要求,不同地区对于数据中心的PUE都有一定的指标要求。东部地区要求PUE小于1.25,而西部地区要求小于1.2。而对于北京、上海和广东等地,其要求更为严格,例如北京可能要求PUE达到1.15。这些要求并不是说液冷技术只适用于这些场景,而是这些场景促进了液冷技术的快速发展。

技术的发展、节能的需求以及国家政策要求等诸多因素,再加上人工智能的爆发,使得液冷技术的发展正当其时。随着能源紧张和环境保护的重要性日益凸显,液冷技术的高效节能特点使其成为可持续发展的重要解决方案。

催生液冷需求的原因——需求驱动与爆发点——AI

自去年年底以来,ChatGPT成为了备受瞩目的技术创新,引发了广泛关注和讨论。ChatGPT的问世标志着人工智能领域的重要突破,我这里列举了其中的一些代表性模型,每个模型都期望能够引领时代的潮流,业界对这个时代充满了乐观的预期。从某种程度上讲,第一次工业革命从蒸汽机到内燃机再到电气化,而工业4.0代表着什么呢?人们一直在思考什么能成为工业4.0的代表,或者新一代信息革命中是否存在代表性的事件。我个人认为,今天以ChatGPT这样的大型模型为代表,可能真正将我们带入了智能时代,意味着我们正在迎来下一次工业革命的时代。

在业界对此也有很多观点。例如,我们要紧跟人工智能时代的潮流。正如NVIDIA的观点,我们正处于AI的iPhone时代。李开复提到,所有的应用都将通过AI2.0进行重构,而AI2.0指的就是今天的大模型,AIGC模型。包括像钉钉这样的应用,所有的业务能力可能都是由AI提供支持的。AI能够完成许多任务,如生成语音、唱歌、写代码、帮助制作PPT等等。但是要将这些任务做好,我们需要强大的算力支持。强大的算力支持是确保稳定性和效率的关键,而数据中心作为基础设施的支撑在其中起着重要的作用。

右上角的图表显示了NVIDIA自己的模型,仅仅使用48台GPU服务器就能完成以前需要多台CPU才能完成的任务。然而,这种技术的应用也带来了一些问题。单台服务器的功耗已经达到了约8千瓦,而在中国的许多机房中,使用风冷散热方式无法满足如此高密度的散热需求。你可能会问,为什么不减少服务器的密度,每个机架只放置一台服务器呢?这样当然可行,但会引发其他问题,比如网络投资的大幅增加。你可能还没有注意到,在AI热潮中,除了推动AI公司的发展,还激发了一个你可能不太了解的行业的火热,那就是光模块和光通信行业。这些行业的股票涨幅可能比模型开发公司或者NVIDIA的股票涨幅更高。这是因为在许多场景下,原先使用铜缆连接的机柜转而使用光纤连接,因此光模块的需求量大幅增加。

因此,回到我们的讨论点上,以ChatGPT为代表的新一代AI技术使得液冷技术得以迅速发展,而现在正是一个非常合适的时机。此外,AI在当今仍然主要用于训练大型模型的研发,但未来将逐渐发展到大规模应用阶段。

以前,在传统意义上,大家认为进行AI训练只需要使用单机搭载8张高性能显卡的设备,并使用液冷技术即可解决问题。然而,这种场景下能够承担得起这些设备成本的参与者并不多。此外,要训练一个大型模型,所需设备的数量非常庞大,但构建这样的集群的总量是有限的。

但是,如果所有应用都要使用AI进行推理和应用,这意味着每台服务器都将成为搭载GPU的AI服务器,情况就不同了。在以前没有大型模型的情况下,进行推理时可能只需要插入一张小型显卡,如A10卡,风冷散热也足以解决问题。然而,在如今的大型模型情况下,你必须使用8块A100卡,这就必须使用液冷散热技术了。

现在正是这样一个时机。实际上,整个液冷行业经过了十年的发展——从最初的GRC开始算起,第一个致力于解决数据中心液冷问题的解决方案出现至今已有十年。当然,技术方面仍然是百花齐放的时代。

Part.3/ 液冷技术的现状以及大规模落地的挑战

谁将成为最终的胜利者,目前还无法确定。关于这几种技术我不再深入讲解,我着重解释一下系统解决方案和IT解决方案之间的区别。就像人体一样,为了保持舒适,我们可以采取多种手段,比如使用风扇、开启空调,或者去游泳或淋浴,只要有一种方案能够解决我们舒适度的问题,那都是有效的解决方案。

然而,对于数据中心来说情况并非如此。如果我选择使用浸没式冷却,无论是单相还是双相,或者选择喷淋式冷却,我都必须考虑到每个IT环节的兼容性,以及整个制冷系统的运作方式。此外,还需要考虑整套解决方案的设计。因此,这涉及到系统解决方案的概念。如果只是进行局部改善,例如仅对CPU或GPU进行散热处理,可能只需要考虑IT解决方案,这是不同的情况。

当一家企业真正希望在当前时期从事人工智能项目时,选择是否采用液冷技术需要考虑的因素仍然非常多。这包括成本,其中又包括单kW建设成本、总拥有成本(TCO)以及更多与IT产出相关的因素。除此以外,图示左侧的这些方面,是我们部署液冷技术的动力,从中可以获得好处。对于业务发展和业务创新而言,正如之前所提到的,如果机房空间和电力资源有限,采用液冷技术可以提高IT产出,从而促进业务的良好发展。

然而大规模部署液冷仍然存在许多风险。合规性也是一个考虑因素。例如,在北京或上海建立数据中心时,对于PUE有严格要求。如果使用液冷技术可以更容易地通过能源效率审查,自然很愿意采用。此外,中国在节能方面不仅要求能源消耗指标的审批,还要进行节能检查,确保申报的技术与实际使用的技术以及最终达到的PUE水平是否符合规定的。如果不符合规定,将面临处罚风险。因此,技术的可控性是一个重大挑战。

图示右侧特别标明了可替代性。当然还有许多其他解决方案。即使对于要求PUE为1.2的情况,是否非液冷不可呢?如果我要构建AI服务器,是否非液冷不可呢?我们知道,NVIDIA提供的解决方案并不是只有液冷技术。如何解决这些问题是一个非常重要的难题,包括稳定性和成本等因素。

在成本方面,特别要提及的是数据中心的生命周期相对较长,而IT设备的寿命相对较短。如果在数据中心使用了3年或4年的中期阶段,此时要选择采用液冷技术,选择采用冷板还是采用浸没式技术,这是一个很难的决策。此外,还需要考虑到老应用程序的情况,以及原先的服务器是否能够继续在新环境中使用等因素。

另一个重要问题是标准化。目前每家公司都有不同的解决方案,从IT设备开始,到冷却分配单元(CDU),再到液体冷却系统,每个环节都有各自的标准。选择了某一个解决方案后,是否意味着我与该公司绑定在一起,还是可以在多个解决方案之间进行替换并实现互操作性,这对许多用户来说是一个很大的挑战。

作为一个用户,如果没有强大的控制能力,可能会更加保守地进行技术选型。因为如果选择了某种技术,却因此被绑架,可能会失去控制权。除非能够自主控制整个供应链,否则只能按照现有条件进行选择。

此外,还需要考虑到消防安全问题。例如油类冷却液可能存在燃点等问题,那么在高密度数据中心中使用这种冷却液,能否满足消防合规要求?是否能够获得批准,被确认为无风险的技术,以便放心地使用?由于目前缺乏相关标准,可以大胆尝试使用,但一旦出现问题,后果将由自己承担。此外,还涉及到其他生态因素等等,具体细节暂不展开讨论。

除了前面提到的单相和双相液冷技术,还有一种被称为全覆盖冷板的液冷技术。与传统的冷板技术不同,全覆盖冷板可以覆盖所有的部件,而不仅仅是核心部件的散热。这种技术可以将冷板应用于所有的组件,使它们都能得到散热。

过去,全覆盖冷板技术面临很大的挑战,因为许多组件都是可插拔的,比如内存和硬盘等,它们的形态不够标准化,无法做覆盖。但是在当前的人工智能场景下,可以将AI板设计成一体化的,所有的元器件都贴在主板上面,从而实现全覆盖的冷板散热。近期的一个重要趋势是SSD(固态硬盘)大规模降价。相比年初,SSD的价格大幅下降,存储容量也得到了极大提升。因此,存储容量已经不再是问题。这种情况下,以前阻碍这一技术应用的HDD硬盘散热的问题,就不再存在了。

就浸没式液冷技术而言,我认为从长远来看,(单相)浸没液冷是一种更优的数据中心解决方案。

但是浸没式液冷目前仍存在许多挑战需要克服。主要包括以下几个方面:

  • 浸没式液冷是否适用于所有场景?
  • 浸没式液冷对IT设备兼容性如何?是否会导致IT设备损坏?例如材料的兼容性需要进一步研究。
  • 传统风冷设备是否可以直接浸泡?需要进行更多的验证。
  • 冷却液的技术标准?安全(消防、人身)、兼容性(电子电气)、散热性能、GWP/ODP等
  • 单相与双相如何选择?
  • 氟化液与油类冷却液的选择?氟化液成本较高且易挥发,系统复杂度较大,但在服务器兼容性方面表现良好。而油类冷却液成本较低,不易挥发,系统相对简单,然而,油类冷却液在更换部件时处
  • 理起来较为困难,需要配套其他设备。因此,从选择冷却液的角度来看,很难确定哪种技术最终会成为赢家。
  • 对运维的挑战如何应对?

Part.4/ 未来展望

从技术上来看,短期内冷板式液冷技术将得到快速发展。这是因为冷板式液冷技术具有良好的技术相容性和兼容性,可以相对容易地改造现有的机房设施,尤其是对于已经建设完成的数据中心而言,可以快速实施。

然而,从中期来看,单相浸没式液冷技术将成为主流。这个判断基于几个因素,包括其较高的散热能力和简单的结构等。如果油类冷却液能够解决消防和燃点等问题,将可以大规模推广使用。

电信运营商现阶段主要推进冷板式液冷与单相浸没式液冷两种技术路线。而互联网巨头则可能会根据不同的立场选择不同的路径,有些可能会同时采用两种技术,而有些可能会跳过中间某个阶段。

对于数据中心厂商,我的个人建议是,首先要具备基础的制冷能力,无论是冷板式还是浸没式,包括基础设施的承重能力和层高都要具备相应能力,以满足客户的选择需求。此外,在短期内,我们应该提供一体化的、可直接使用冷板式解决方案,以满足市场需求。

关于未来的发展规模及到如何推广大规模应用。很明显,当前AI训练是一个首要领域,许多人将尝试在这个领域大规模应用液冷技术。此外,从训练到推理阶段,推理服务器也需要强大的计算能力,因此也需要采用液冷技术。最终,液冷技术将在数据中心行业得到全面应用。

实现全面应用液冷技术意味着满足几个前提条件。首先,整体液冷系统的成本必须降低到足够低的水平,使得用户在选择时认为液冷比风冷更便宜,并且不需要为风冷设计特殊配置。其次,整个液冷技术生态系统必须足够完善,以提供各种配套设备和解决方案。只有在这些条件满足的情况下,用户才会普遍选择液冷技术。

对于电信运营商而言,我个人认为他们在液冷技术方面已经取得了积极的进展。根据规划,到2025年及以后,超过50%的项目将采用规模化的液冷技术应用,这是一个积极进取的目标。

至于互联网巨头等其他企业,我相信随着整个行业的成熟,他们也将逐渐应用液冷技术。无论是从AI领域开始,还是在各个领域全面采用液冷技术,他们都将逐步涉足这一场景。