2024.04.30
作者丨张洁
“计算”是贯穿人类文明史的一大主题。
早在茹毛饮血的原始社会,先民们就开始结绳记事;进入20世纪,世界上首台数字式电子计算机ENIAC诞生,标志着人类算力正式跨越阈限;随后半导体技术出现,芯片成为了算力的主要载体;科技巨轮驶入21世纪,云计算的发展再度为算力迎来巨变。
如今当我们习惯算力云化后,大模型的崛起又带来变数,各色生成式AI应用落地,各地智算中心拔地而起,新一轮底层算力变革正式启幕。
众所周知,底层计算历来都是软硬件适配协同的结果。一方面,计算需求的演进,催生了硬件形态与功能的变革,另一方面,以操作系统为代表的软件作为中枢神经,桥接着底层硬件与上层应用。
在此背景下,人工智能基础软件供应商九章云极DataCanvas于日前发布了DATACANVAS AIDC OS智算操作系统。这个团队从智算操作系统入手,为算力的效能瓶颈求得一个新解。
迷失:算力利用率的困局
在大模型的狂飙突进中,算力需求的爆发式增长只是故事的开始。
在企业千帆竞发,掘金AI新大陆之前,无法忽视的是横亘眼前的巨大鸿沟。这种“鸿沟”不仅表现在算力供需两端的矛盾上,还表现在算力利用率上。公开数据显示,目前整体算力利用率不足30%。
一方面,面对算力需求缺口,计算资源捉襟见肘;另一方面,现实中却普遍存在大量算力资源未得到有效利用,以致被闲置和浪费的现象。
落实到智算中心的筹建中,这也是无法回避的问题。
下游算力需求的集中爆发,催生了智算中心的建设热潮。相比传统IDC,智算中心的设计理念有着鲜明的差异:其一,在内部,GPU取代CPU成为主角,高速连接的 GPU 构成了新的计算中心;其二,就功能定位来说,其工作载荷高度聚焦,即大模型的训练、调优和推理。换言之,大模型反向驱动底层的资源管理。
从这个意义上说,智算中心可以被视为“模型的算力工厂”。
可是在智算中心的建设过程中,依旧面临重重困难。九章云极DataCanvas联合创始人&CTO尚明栋在接受采访时,强调了两个不可回避的问题:一是高额的成本;二是稳定性的挑战。
他提到:以构建1000P算力的智算中心为例,包括硬件、能源在内,总成本可能高达5.5亿,其中硬件成本占比约80%,而能源成本每年约合1000到1500万(根据不同地区的电力计价水平)。如此高昂的投入如何获得稳定持续的收入是必须思考的议题。
与此同时,随着算力集群规模的增大,整个算力集群的稳定性也越来越难以保障,因此,其效率也始终低于常规默认的基准。
要解决这些问题,提升算力利用率是当务之急。九章云极DataCanvas为之找到的突破口就是——智算操作系统。
寻路:操作系统跃迁的转机
提到操作系统,大家可能会想到 Windows、Linux、macOS等等。但到了大模型时代,当底层硬件架构从 以CPU为核心 变成以 GPU 为核心时,当大规模、高性能的 AI 计算任务逐渐成为刚需时,新一代操作系统的诞生成为必然。
相较传统操作系统,智算操作系统可以说是专门为适应AI时代计算需求而设计的操作系统,它在硬件支持、资源调度、AI服务集成等方面进行了深度优化和革新,旨在为用户提供一个高效、易用、智能的平台。
围绕DATACANVAS AIDC OS智算操作系统,尚明栋介绍了其整体的设计思路:
“智算中心操作系统的定位是管理好硬件和软件的协同,能够使GPU发挥出最大的算力。所以,在智算中心的操作系统里,需要协调上层和下层的生态,下层面向智算基础资源,能够去协调高速算力、存储和网络,上层需要面对智算中心使用群体提供完整的大模型工具链。”
可以说,在智算中心内部,AIDC OS 扮演了一个“顶天立地”的角色:上接大模型应用,下管万卡集群,是智算中心进行运营和管理的基础。如果把目光调整至外部,就会发现AIDC OS也是一个开放的生态。
“不仅可以在系统之上像九章云极DataCanvas开源的Alaya一样,预训练一个7B、13B、35B的大模型,同时也可以开放兼容其他开源大模型的微调和统一的模型纳管。”
而对九章云极DataCanvas的研发团队来说,打造 AIDC OS 是为了更好地利用算力,因此他们有着清晰的目标。
尚明栋对此做了进一步说明:
首先,降低用户使用门槛。因为智算中心核心是面向模型,软件供应商提供模型全生命周期的所有能力,通过软件方式,能够让用户无缝无感地将智算算力使用起来。
再者,能够持续地降低成本,提升算力的有效性。通过提高整个智算中心运维的稳定性,以及硬件的使用效率,最终达成降低智算中心的使用成本的目的。
至此,一幅在算力新纪元中乘风破浪的理想蓝图已然徐徐铺开:以智算操作系统为桥梁,持续优化算力资源配置,加速千行百业落地大模型的进程,增强其为产业创造的价值与经济效益。那么九章云极要如何做到呢?
点灯:五大价值内核的聚力
在求索之路上,九章云极持续打磨 AIDC OS的功能和性能,最终提炼出五大价值内核,宛如在算力利用的困局中点亮了五座灯塔,照亮了算力飞跃的新航路。
尚明栋对这五大核心价值,进行了逐一说明。
告别“裸金属”:破解算力调度能力不足且利用率低的症结
裸金属服务器通常可以提供相对更安全的物理隔离,而且由于没有虚拟化层的介入,它能避免虚拟化技术带来的额外性能损耗,提供更接近硬件性能的计算能力。
而九章云极DataCanvas在这里提出的“告别裸金属”,是希望能在裸金属之上提供新的价值。更确切地说,是提升智算中心资产的附加值,将运营方的运营和运维的能力从裸算力设备提升到AI大模型运维和服务能力的输出上。
尚明栋介绍:我们的AIDC OS通过对资源的协同管理和弹性调度,旨在最大限度提升效率。如何实现效率最大化?其策略关键在于采取更小粒度的调度和管理,而不是按照整机或整卡的固定分配模式。如此一来,就可以更加灵活地去分享内存资源,更高效地利用计算单元,确保对各类硬件资源进行充分且合理的调度,从而达到对更多计算资源进行高效利用的目的。
为AI而生:降低AI大模型训练微调门槛
如前文所述,AIDC 区别于传统的 IDC,不同的建设目的和驱动机制也导致两者的计算方式和资源管理方式截然不同。
传统 IDC 的主要计算单元是 CPU,而且一定面向的是多任务,在此之上通过虚拟机的方式提供服务,从而实现普算服务,比如提供OA的服务、视频直播服务、电商服务等等。
而 AIDC 的建设目的从来都只专注于人工智能核心任务。所以,AIDC OS从来不是传统的云管平台的平移,同样GPU的高度异构也需要更强的抽象和隔离能力。针对大模型的训练、微调、部署和推理等任务,AIDC OS提供的是集“算力、数据、算法、调度”为一体的融合服务。
全局加速优化:弥补AI加速优化能力不足
算力的成本高昂,决定了对其加速优化本质上是对经济效益的精打细算。如果加速优化策略能实现10%的效率提升,则意味着在大模型的训练过程中,将成功削减同等比例的成本支出。
尚明栋介绍,AIDC OS在加速性能上的显著优势集中体现于推理端与训练端,而这背后蕴含着九章云极DataCanvas研发团队在工程实践中的深厚积累。
“举个例子,通过内核的优化,可以将多个运算融合到一个内核中,从而减少内核的调用次数和跨内核访问主内存的延迟。通过对Transformer的优化内核,可以充分利用内存的带宽,最大限度提升算力利用率,同时结合其他加速策略,包括编译优化并行加速、缓存优化模型压缩等等,可以使我们的推理速度提高4倍,同时将Token吞吐量提高到5倍。”
训练端的优化同样卓有成效。“通过通信加速,通过梯度压缩算法,将通信量减少了2到3倍,整体的训练效率在保持原有精度的同时,单卡利用率提升50%。结合内存的优化、数据的三级缓存、算法的加速等策略,集群训练效率上可以提升100%。”
异构算力纳管与调度:直击异构算力资源纳管困难
在智算中心构建过程中,异构算力的出现是常态。如果是在不同的智算中心,那么通过高速网络异构的分散性会表现得更加突出。如何去调度和管理异构算力是必须直面的一大痛点。
而AIDC OS能够做到的,不仅是可以支持不同厂商芯片模型的转化,同时也可以实现在混合专家模型里进行混合训练的技术。
九章云极DataCanvas对此同样拥有大量工程化的积累。借助拓扑感知调度与Affinity调度策略,AIDC OS能够根据拓扑位置实现算力资源的就近部署,从而精准优化算力效能与作业性能。除拓扑感知调度外,系统还支持优先级调度、故障感知调度以及动态平衡调度等多种调度机制,大幅提升算力资源的利用率。
1度算力:实现“买到即用到”的算力服务
这一核心理念的价值在于:九章云极DataCanvas从用户视角出发,首次提出了统一的算力服务计量单位“度”(DCU)。就像水、电一样,算力也有了自己的衡量单位,这为标准化的算力计量计费、以及未来算力资源的互联互通打下了基石。
尚明栋强调,1度算力并不单纯是物理的衡量,它将所有硬件投入、运营管理、运维管理和运维投入变化囊括其中,实现可度量。可量化的算力对于算力的使用者和广大的企业来说,意味着可以真正实现“买到即用到”的算力服务。
他谈到:在训练大模型的时候经常会遇到这样的问题,由于前期经验不足,团队并不精准地知道到底需要多大规模的算力。同时,在此过程中,即使部署了大规模集群算力,依然会因为各种原因让模型训练中断,比如数据问题,比如程序bug。一旦中断,这些算力就会被浪费。
“所以我们在此提到的有效算力指的是,当你使用的时候算力是在计价的,当你没有使用的时候,不会被计价,我们最终的用户买到的是真正有效的算力。同时我们运营商也可以获得更高的单价,随着算网建设的发展,同样1度算力度量的算力也会促进我们算力的流通进行公平的结算。”
远航:重构计算,吾道不孤
仅从操作系统本身而言,生态的成功与否往往直接影响到其生存与繁荣。AIDC OS 同样如此。而在智算中心的核心生态里,智算中心操作系统本身就处在承上启下的关键连接位。如何不断健全其生态构建,是关乎长远的发展要义。
尚明栋表示,九章云极DataCanvas希望与GPU厂商、大模型厂商、智能体厂商、行业客户以及智算中心的建设者都成为朋友,广结善缘、共建生态。
目前为止,AIDC OS已经适配了中科、海光、昇腾、天数智芯等主流GPU;另外,在大模型方面,除了九章云极DataCanvas自研的Alaya大模型之外,也可以支持一众国内的开源大模型,在平台上进行模型的微调和统一纳管。
站在又一次技术浪潮袭来的当口,改变世界的能力可以被掌握在更多人手中。而要成为这场变革的舵手,不仅要有凌霄之志,更要有善利之怀,与志同道合者共绘智算新图景。在驶向新大陆的征程里,革新之路,星汉灿烂;重构计算,吾道不孤。