长久以来,上架率作为衡量数据中心运营效益的关键指标,被业界广泛重视。随着人工智能、大数据等技术的飞速发展,我们正步入一个全新的智算时代。而对于智算中心运营来说,应当关注的焦点,已经不再是上架率。
上架率为什么重要?
数据中心上架率
上架率即机架中实际部署服务器的比例,这一指标直接关联到数据中心的收入能力和空间利用效率。高上架率意味着更高的资源利用率和更低的单位成本,因此,提升上架率成为数据中心运营商的核心策略,将其称为数据中心的生命线也不为过。
因此,不仅仅数据中心企业关注上架率,政府层面在发布主导算力基础设施建设的多个政策中强调了对上架率的关注,比如“东数西算”工程中,工信部对各枢纽节点的复函中,均强调要求各数据中心集群上架率不得低于65%。
智算时代的新挑战
算力中心对电力的需求指数级上升
进入智算时代,随着算法复杂度的增加和数据量的爆炸式增长,算力中心对电力的需求呈指数级上升。相比于传统的数据中心,智算中心的拓展瓶颈已经从机柜这种物理空间,转变为能源供给和制冷能力。
特别是在一些电力供应紧张的地区,高昂的电费和有限的供电容量已成为制约数据中心扩张的瓶颈。
GPT-6的训练就受限于电力供给。微软工程师尝试建设拥有10万张H100卡的训练集群,但发现如果将智算中心布局到一个区域,就会造成当地电网崩溃。而如果分散部署,又会面临跨区域GPU间的infiniband级别链接的难题。
此外,全球对于碳排放的关注使得数据中心的能耗问题日益凸显,绿色、低碳的运营模式成为新的趋势。
用电效率:智算中心的破局之道
智算中心优化用电效率
面对“有多少电用多少电”的现状,追求上架率对智算中心已经没有太多意义。相反,优化用电效率,实现能效比的最大化,成为了降低成本、提升竞争力的关键。
首先,通过采用更高效的硬件,如更低功耗的芯片,可以在保证计算性能的同时显著降低能耗。
其次,智能温控系统、液冷散热等先进技术的应用,能有效减少冷却能耗,进一步提升电源使用效率。因此即使从成本出发,液冷已经成为智算中心的首选。
最后,在应用层优化算法,提升芯片互通能力,提升大模型训练效率,也是降低能耗的重要手段。
绿色转型
智算中心用电绿色转型
实现用电效率的提升并非一蹴而就,需要从战略规划到技术实施的全方位变革,从智算中心规划之初就要通盘考量。
比如数据中心的建设选址应考虑可再生能源丰富的区域,利用太阳能、风能等清洁能源,在降低用电成本的同时也可以降低碳排放。
当然,政策层面的支持和行业标准的建立也分外重要。比如出台推动碳排放交易、鼓励绿电直供等政策,行业则推动数据中心行业的能效透明化,促进最佳实践的共享。
智算时代,产业发展逻辑已悄然改变。数据中心的运营者、技术提供商乃至政策制定者,都应共同致力于构建一个更加绿色、高效、智能化的算力生态系统,才能在保障社会算力需求的同时,实现算力的高质量可持续发展。