AI发展绿色低碳技术支撑研究前沿
来源:中国环境报肖琪
和AI 聊天,需水量居然这么大?
先说几个核心判断。谷歌发布的《2023 年环境报告》里,有一组数据相当引人注目:去年用水量同比激增了20%,达到了56亿加仑。这是个什么概念?换算下来,大约是2120.79亿升水,足以填满近31850个奥运标准游泳池。如此庞大的水资源,绝大部分都用在了同一件事情上——为数据中心散热。报告同时指出,随着AI竞赛进入白热化,这个数字恐怕还要继续往上走。
一边是人工智能不可阻挡的发展势头,另一边是数字经济对绿色低碳的迫切要求。云计算是数字经济的基石,而AI革命的加速,让“如何让算力变得更高效、更低碳”成了必须面对的问题。
聊10句天,ChatGPT可能要费半斤水
用ChatGPT写论文、做攻略,甚至尝试解决各种领域的难题——2023年初,OpenAI的这款应用火遍全球。人们在体验新奇的同时,也开启了全球互联网公司的AIGC竞赛。
在很多人的认知里,AI的未来似乎更依赖于硬件、软件这些基础设施的迭代。但一个容易被忽略的事实是:AI需要海量的训练,而数据中心承载着传递、展示、计算、存储数据信息的功能,动辄集成上百万台服务器。那些好玩儿、新奇的体验背后,需要的是更强的算力中心,以及与之匹配的散热能力,才能保证服务器始终在合适的温度下运行。
最常用的冷却方式就是蒸发和放空。这恰恰是水冷型数据中心最主要的耗水环节。除了蒸发损失,定期清洗冷却系统也需要消耗一定量的水。
卡罗拉多大学与德克萨斯大学的研究人员在一篇预印论文中,给出了训练AI的用水估算。结论很直观:训练一次GPT-3所需的清水量,足以填满一座核反应堆的冷却塔。而ChatGPT在交互阶段,每与用户交流25到50个问题,就得“喝掉”一瓶500毫升的水来降温。
同样的道理,谷歌的PaLM 2模型要获得更好的性能,就得经过高强度的预训练。参数越多,性能越好。公开数据显示,PaLM 2是在3.6万亿个token上训练的,而上一代PaLM只有7800亿。
加州大学副教授Shaolei Ren指出:“用水量增加20%,基本与谷歌计算能力的增长同步,而驱动这一增长的,正是人工智能。”数据中心耗水的核心原因,其实呼之欲出:大量训练AI才是真正的元凶。
AI快速发展,还需解决“喝水”和能耗问题
AI的发展速度有多快,对水资源的消耗就有多猛。而这,正成为决定数据中心未来走向的关键因素之一。
谷歌曾设定目标,要在2023年之前,补充其办公室和数据中心消耗的120%的淡水。然而目前只完成了6%,距离目标差距悬殊。在最新的报告中,谷歌已将“当地水资源压力”纳入考量,并透露2022年有82%的淡水抽取量来自水资源相对充裕的地区。但由于数据中心的用水量增长不会停歇,可持续的用水策略依然是未来的重点。
相关专家呼吁,应尽快为数据中心用水建立一套统一、规范的标准和效率评价指标,让它成为数据中心实现绿色低碳发展的关键工具。
为了节约宝贵的水资源,不少企业已经开始尝试各种方法。比如微软曾部署海下数据中心,Facebook把数据中放在北极圈附近,阿里云千岛湖数据中心则直接利用深层湖水制冷。
在高密度、高能耗的数据中心需求推动下,制冷技术也在加速革新。一个明显的趋势是:液冷技术正在崛起,并有望成为制冷领域的主力。
所谓液冷,就是用液体取代空气作为冷媒,与CPU、芯片组、内存条等发热部件进行热交换,带走热量。相比传统的风冷,它的制冷效率更高,能有效降低制冷系统的运行能耗,使数据中心PUE值降到1.3以下。
今年7月6日,在第六届世界人工智能大会上,互联网头部企业和运营商发布了30多款大模型和10多款高算力智能芯片,它们背后都有液冷数据中心的影子。随着大模型时代的来临,能够支持超高密度IT设备散热的液冷技术,也将在数据中心领域迎来高速发展。
科技企业要成为绿色低碳云计算的领跑者
数据中心是数字经济的基石,但压力也是实打实的:水资源紧张、双碳目标、用电量快速提升……这些都让数据中心的运营难度越来越大,还得面对节能审查和碳能双考等多重考验。
联通数字科技有限公司的工作人员车凯曾撰文指出:数据中心本质上就是将能源转换为算力的载体,转换效率越高,意味着实现相同算力付出的能源成本越低。
对科技企业来说,未来的破局之道,就是力争成为绿色低碳云计算的领跑者。
以阿里云数据中心为例,他们从绿色能源、绿色产品及技术、绿色架构、绿色运营、绿色服务等多个维度入手,把自己打造成一朵“清洁的云”。相关负责人表示:“这不仅包括让更多机构通过上云减少对本地机房和服务器的依赖,还包括提供基于云计算的数智工具,帮助客户在数智化转型的同时实现绿色低碳,真正发挥绿色通用算力在数字循环经济转型中的价值。”
在液冷服务器技术上,阿里云主力研发的基础设施与IT设备一体化浸没式液冷架构,能完全脱离风扇、空调等机械制冷,年均PUE可低至1.09,比行业平均水平节能36%。截至2023年3月31日,在7个大规模数据中心部署智能算法运维策略后,冷却系统能耗下降了5%到11%。相关负责人强调:“液冷技术下的全场景实时精确温控,能释放芯片的计算潜能,有效解决未来更高性能的计算需求。”
