上海社会科学院互联网研究中心主任 惠志斌
疫情期间,居家、移动、分散、远程办公的场景已然成为社会常态。脱离企业内部网络环境的办公模式对企业数字化水平提出了挑战,而在新的“无边界”的企业网络结构中,大到企业数据中台的运转,小到一个数字化的办公设备互联、一次远程的数据传输,每一个习以为常的办公操作背后,都是算力的支撑。
数字化程度决定企业在数字化经济时代的竞争力,如果说在数字化企业网络架构中,数据是新的生产资料,那么算力则成为新的生产力。算力作为企业生产的重要基础设施,广义上包括了数据采集、存储、计算、应用等。伴随着围绕业务开展的海量数据(行情603138,诊股)加工和处理,算力在支撑企业业务连续性的同时也带来了巨大的能耗。以数据中心为例,每秒百万、千万的数据处理流的背后,都是不容忽视的能耗及其对环境带来的压力。
近年来,业内开始广泛提及“绿色计算”(Green Computing)概念。目前,“绿色计算”虽仍未有权威定义,但中国科学院院士何积丰提出,绿色计算包括:采用高效、节能和低功耗的计算设备和配套设施;在保证信息服务可靠性的前提下,合理分配计算资源;保障可持续发展的低成本,低能耗的新型系统与应用。基于这一概念认知,目前业内对绿色计算的讨论与研究主要围绕两个方面,一是对PUE(Power Usage Effectiveness,电源使用效率)的讨论,二是对计算资源合理分配的讨论。
前者以谷歌的无碳能源运营计划为例。4月14日,谷歌能源总监迈克尔·特雷尔(Michael Terrell)表示,随着整体互联网使用量和业务的增长,该公司的用电量也在增长。因此,谷歌制定了一个计划,即到2030年实现全天候的无碳能源运营(采用风力、水力或太阳能(行情000591,诊股)发电,使得在产生能量的过程中没有碳原子的参与,不会产生二氧化碳)。从碳中和到无碳能源运营,越来越多的科技企业在致力提升算力的同时,考虑最大化降低计算的能耗。其中,通过充分利用自然冷源、利用可再生能源等措施来降低数据中心的PUE值也已成为业内共识。后者则聚焦对计算资源合理分配、提升算力利用率的研究,虽然目前尚未被广泛实践,但相比围绕PUE的投入,提升算力利用率技术仍是一片值得探索的蓝海。
PUE之后,节能减排的破局在于“算力分配”。根据领先科技公司的平均PUE来看,试图通过电源使用效率进一步改善碳排放问题的空间已经不多。因此,科技公司下一阶段的节能减排仍需寻找新的绿色计算途径,而发展算力利用率提升技术将是一个值得投入的领域。提升算力利用率意味着通过技术合理分配计算资源,实现算力共享、错峰使用,从而提高单位算力的效率,对减排产生可观的影响。
事实上,除了PUE的改善空间有限,发展算力利用率提升技术的另一个关键原因在于国内科技公司一般具备很强的运营驱动特性,运营驱动的核心点之一是其对计算资源的需求存在峰值。在特定活动期间,计算资源需求量激增;日常阶段,计算资源需求则相对减少。因此,过多的算力储备可能带来浪费,而采用提高单位算力效率的方式则恰好契合运营驱动的公司特点,为下一阶段的减排提供可观的良好效果。
根据蚂蚁集团最新的减排报告数据,2021年通过其自研的着眼于提效的绿色计算技术,共实现减排量29591.48吨,节能相当于全国全部的新能源汽车(截止2021年6月,总保有量为603万辆)开上50公里的总耗电量。这一数据充分体现了算力利用率提升技术的作用与优势,这也是诸如蚂蚁集团等大型科技公司在这一领域上率先布局和投入的重要原因。
算法利用率提升技术发展的核心在于自研。据了解,蚂蚁集团的所有业务自2019年开始陆续上云,作为服务几亿用户的平台,每分钟都在对海量的数据进行处理和计算,因此蚂蚁集团在追求业务稳定性的同时,也开始系统性地探索绿色计算技术,提高计算资源的利用率、降低服务器数量。然而,作为提供支付等多种服务的平台,如何在减少服务器用量的同时,保证业务稳定和用户体验不变?如何在绿色计算的同时,维持服务的安全可靠?蚂蚁集团首席技术官倪行军认为,正因为这些困难,逼着我们做出了一些创新”。
自主研发在绿色计算技术的整体发展进程中占据了重要地位。在多个技术团队的努力下,蚂蚁集团摸索出一套业内领先的资源调度技术体系,并于2021年双11期间实现首次规模化应用。据了解,“绿色计算”技术体系来自可信原生、技术风险、OceanBase数据库以及智能引擎等多个技术团队,其中有三个核心技术点:在离线混合部署技术、云原生分时调度、AI弹性容量。
在离线混合部署可以提高服务器的利用率。在行业实践中,离线任务和在线任务往往被分布在不同的数据中心,导致了服务器的资源运行效率低且大量的能源浪费。针对这一问题的解决思路是将二者混合部署在同一数据中心,但技术上面临最大的难点是让在线业务不受离线任务的影响,双方互不干扰。对此,以蚂蚁集团的实践为参考,将Kata安全容器的强隔离技术用于离线任务与在线任务在调度系统内的混合部署,将在线应用部署到离线集群上面,通过削峰填谷”可以解决资源利用率问题。简而言之,在交易高峰时,暂时减少对时效性低的离线服务”的处理,将更多计算资源调度至交易结算等“在线服务”。而到了交易低谷期(比如凌晨)时,再重新开始处理离线服务的计算量。这种弹性的可自由调度的部署方式是绿色计算技术发展下,值得借鉴的方案之一。
此外,互联网公司往往每年都要在大量服务器上投入高额成本,那么同一份服务器资源是否可以供给不同时段的业务高峰使用,以提高服务器的利用率?基于云原生的分时调度技术针对这一问题给了确切的回复:可以把一份资源在不同的时间段提供给不同的应用,按照场景需求灵活切分资源供给,确保资源的最大复用和按时足量供给;AI智能容量技术则可以利用大数据和AI技术实现智能预测流量,并进行合理的扩容和缩容。
基于这些创新技术,最终实现的节能效果是“蚂蚁集团的服务器利用率同比三年前可以提高2倍以上,在同等规模的业务下的每一份算力的耗电减少一半”。
最后,伴随全球互联网的高速发展,数字化程度加深,我们预计未来数据中心的增长将直接带动数据中心的用电量需求激增。因此,不管是从当下的算力能耗考虑,还是从长远发展眼光来看,通过技术赋能算力节能都是一个正确且必要的方向。预计绿色计算在算法利用率提升技术发展领域中,一方面将着眼提升算力效率,在物理层面减少服务器数量,间接缓解能耗问题;另一方面将在代码层面加大投入,考虑到大型科技公司每年会生产出数十亿行代码,通过整体提升代码运行的性能,让单位算力的效率最大化将是绿色计算下一步需要探索的方向。
关键词: 疫情下的算力突围 绿色计算正为科技企业带来低碳机会