欢迎访问江西安防资质网!

数据中心怎样实现 AI 拓展与 ESG 提升的并行

发布于:2024-08-29

   到本世纪末,全球人工智能市场预计将为世界经济贡献高达 15.7 万亿美元之巨。各行业的领军人物皆看好人工智能在简化运营流程、提升生产力、创造收益以及推动创新等方面的巨大潜力。

数据中心如何同时推动 AI 发展和 ESG 进步


   然而,人工智能属于能源高消耗型技术。据估算,支撑人工智能的服务器一年的用电规模,可能相当于一个如瑞典或者阿根廷般大小国家的用电量。运行人工智能工作负载所需的高性能计算(HPC)环境,其耗电量是传统工作负载的 300 至 1000 倍之多,由此产生的热量也极为可观。这就意味着数据中心必须耗费更多能源来对服务器进行恰当冷却,以确保其稳定可靠运行。


   若要充分释放人工智能的全部潜能,各组织或许得在其环境、社会和公司治理(ESG)目标方面做出重大让步,除非该行业能大幅削减人工智能的环境足迹。这就要求所有的数据中心运营者,包括内部团队以及第三方合作伙伴,必须采用创新的数据中心冷却能力,同步提升能源效率并降低碳排放。


   在维持高性能的同时提升冷却效率的三大策略


  对高性能计算能力的需求并非人工智能所特有。网格计算、集群以及大规模数据处理等技术,都依赖于 HPC 来推动分布式工作负载、协调复杂任务以及跨多个系统处理海量数据。


   不过,随着人工智能的迅速崛起,对 HPC 资源的需求急剧增加,这进一步加剧了对先进基础设施、能源效率以及可持续解决方案的需求,以管控相关的电力和冷却需求。特别是,支撑复杂人工智能模型和深度学习算法所需的大型图形处理单元(GPU)所产生的热量远超传统 CPU,这给数据中心的设计和运营带来了全新挑战。部署过程中可能需要支持那些不一定适用液体解决方案的存储和网络解决方案。


   这些挑战需要尖端的冷却技术和节能系统来确保实现最佳性能的同时,又不影响可持续发展目标。为达最佳成效,数据中心将需要综合运用空气和液体冷却解决方案,这些方案能够灵活满足每个部署的特定要求:


现代化的 CRAC 技术


   传统的计算机房空调(CRAC)系统依赖于集中式空气分配,即从有限的几个点将冷空气吹向整个房间。这种方式适用于低密度设置,因为服务器之间的散热相对较为均匀,但却难以满足充满热密集型 GPU 系统的高密度环境的需求。


   与之相比,现代的 CRAC 系统运用复杂的冷却技术,如变速风扇和节能器来动态掌控整个数据中心的冷却。这种方法能够针对热点,根据实际环境状况实时调整气流。所以,现代 CRAC 系统比其前身更加节能,提供了专为波动工作负载而设计的可扩展解决方案。


可替代空气输送


   采用可替代空气输送系统的数据中心,能够在房间、行以及机架级别定制冷却资源。这些量身定制的解决方案能同时满足双重性能和可持续性要求。
   在房间层面:模块化冷却能够进行战略性布置,将空气引导至最需要的地方。例如,当房间布局改变或者新设备安装时,气流可以进行相应调整。像冷热通道封闭这样的技术 —— 将服务器机架交替排列,使冷空气从一侧流入另一侧流出 —— 也有助于防止空气混合,从而实现更高效的冷却。
   在行级:专用冷却装置集成在每排机柜中,能够有效地向高密度区域输送更多空气。随着行配置的改变,这些装置可以重新定位或者进行调整。
   在机架级别:直接到机架冷却提供了更具针对性且更高效的空气输送。虽然采用机架级单元会增加成本和复杂性,但却能显著降低高温区域的温度。
液体冷却技术


   先进的 AI 系统产生的大量热量,仅靠空气循环很难实现有效冷却。液体冷却与空气冷却方法协同配合,以抵消高密度机架周围的热量,防止出现与电源和热量相关的故障。业界认为 30 - 35kw 是一个典型的临界点,此时液体冷却更具意义,并且能够更有效地降低总体拥有成本(TCO)。不过,在许多像 Flexential 这样的数据中心环境中,可以支持更高密度的风冷机架。


   如今,随着支持高达 300kW 的超高密度和预集成机架的出现 —— 而且这个数字还在不断攀升 —— 对先进冷却技术的需求持续增长。


   液体冷却涉及通过闭环系统循环冷却液(通常是水或者水基溶液)来吸收和散发大量热量。水不断循环,实现零水利用效率(WUE)水平。数据中心还可以通过其他液体冷却技术来补充这一方法,以更高效地支撑 AI 的快速处理性能要求。


   例如,直接芯片冷却使冷板直接与 GPU 和 CPU 接触,而浸入式冷却则是将整个服务器组件浸入非导电冷却液中。存在各种散热技术,如液体对液体(闭环系统的一部分)或者液体对空气。通过综合运用这些技术,数据中心能够灵活地最大限度提升任何类型部署的效率。


  此外,冷却分配单元(CDU)能够支持各种硬件配置,可能需要上游液体,或者一些可能是独立的以支持改造解决方案。随着 AI 部署向支持边缘推理发展,这些不同的部署架构对于实现广泛支持极为重要。


使 AI 部署与 ESG 规划相互协调是可行的


   通过摒弃单一的冷却解决方案,数据中心能够更有效地平衡 AI 部署的技术要求和可持续性优先事项。这种方法提供了灵活性,无论服务器配置如何,都能冷却数据中心最热的区域,从而在整个设施中实现最佳温度,同时最大限度地提高能源效率。


   借助创新的冷却技术和多维度的方法,数据中心能够持续提供当今严苛的 AI 工作负载所需的可靠性和性能,并为基于 ESG 最佳实践的广泛 AI 应用奠定基础。


   声明:本站所使用的图片文字等素材均来源于互联网共享平台,并不代表本站观点及立场,如有侵权或异议请及时联系我们删除。



Copyright © 2018-2020 江西安防资质网

 网站地图