2024.04.11
人类的计算历程经历了从古老的算盘到便携式计算器的演变,进而发展至功能强大的电脑。随后,我们见证了通用算力的数据中心和超算的崛起,它们分别依托CPU作为主要计算单元和超大规模的CPU辅以GPU来增强计算能力。如今,我们迈入了智算时代,智算中心则是以GPU来体现其卓越的计算性能。
智算中心作为一个计算中心,计算是由GPU来实现。为何选择GPU?因为GPU的出色性能正是“智”的体现,它专为“智”服务。因此,智算中心的核心业务聚焦于人工智能领域,致力于处理与人工智能相关的所有模型计算任务。简而言之,智算中心就如同一个模型的制造工厂,无论是模型的训练、推理还是调优,都在这里得到高效、精准的批量处理与应用。
智算中心是以其GPU所展现的卓越算力为基石,构建的计算中心。其核心业务定位在于为人工智能领域提供全方位的模型服务,包括模型的训练、推理以及调优。这两个核心定位不仅凸显了智算中心的价值所在,更成为了业界的广泛共识。
一切为了模型
目前,在硬件层面主要依赖GPU来实现各种模型的加工和计算。GPU通过高速网络连接,协同完成模型所需的复杂运算。而这一切的实现,都离不开软件层的支持,软件层是模型加工和计算得以体现的关键。
智算操作系统,这一非常贴切而形象的说法,恰恰定义了智算中心核心支撑的软件层。从工作负载的角度看,智算操作系统与云管平台的不同在于:在普通的CPU为主的云计算中,CPU之上的工作载荷是多样化且分散的;而在智算中心,工作载荷是高度聚焦于GPU,主要集中在大模型的训练和推理。
云中主要使用的是CPU,尽管存在x86、Arm等各种不同的指令集,但相对来说比较成熟。而GPU在高速的发展时期,特别是在国内,其环境高度异构。在这样的硬件环境下,运行应用又要保证高度一致,软件层所需要的抽象和隔离能力便会更强一些。
智算中心的核心工作围绕模型展开,而云则更多从硬件出发,通过虚拟化切分等技术实现上层应用资源共享。由下往上推动资源共享,依靠的是云数据中心的云管或操作系统层。然而,对于自上而下的AI应用,其核心是模型,从模型的训练、推理去反推,需要对下层的硬件进行精准调度和管理。这便要依靠一个新的智算操作系统。
智算中心的操作系统必须功能全面且强大,不仅要能兼容和调度多个异构的GPU,更关键的是在AI平台上对模型训练的算法、参数进行调优,并实现自动建模。同时,还应能灵活组合各种算法,以达到最佳的训练效果。
统一纳管 生态共建
九章云极DataCanvas的智算操作系统面向智算中心、智算中心算力运行与业务运营,也可以支持大中型企业内部智算集群的运行。其核心能力在于智算资源的纳管、统一调度,为智算业务提供坚实的运营支撑,并助力AI模型的构建、训练和推理。
首先,它实现了异构算力纳管;其次,支持丰富的算力服务产品形态;再次,通过多策略统一调度,优化算力资源的使用;此外,它降低了AI大模型+小模型的训练与推理门槛,同时提供了AI模型训练全过程监控与容错能力等。
九章云极DataCanvas的智算操作系统不仅有效提升了智算中心资产的附加价值,将运营方的运维能力从裸算力设备运维提升到AI大模型运维能力;同时也方便最终不同类型的终端用户快速上手使用智算算力开发和运行AI应用;此外,它也是智算中心开放生态环境的基础支持设施。
目前,九章云极DataCanvas已与国内主流的GPU厂商如天数智芯、中科海光、昇腾、翰博半导体等建立了良好的适配关系;同时,支持众多国内开源模型,并为客户提供DataCanvas Alaya九章元识大模型。此外,公司与众多央企云、云厂商和安全厂商保持着紧密的合作关系,在智算中心的建设与运营中发挥着桥梁作用。
九章云极DataCanvas的一个创新之处在于提出的“一度算力”理念。这一理念类似于一度电力,旨在将硬件投入、数据中心的运营管理、运维管理和运维投入变成可度量、可量化的算力,并对外输出,使算力的使用者和广大企业能够从中受益。
打造智算操作系统 惠及千行百业
智算操作系统的成功落地,关键在于精准匹配适用场景。基于九章云极DataCanvas的实践应用,尽管智算操作系统还处于创新尝试的阶段,但众多用户已展现出浓厚的兴趣和期待。
当前,大模型使用算力的成本较高,智算操作系统的应用面临着技术和成本双重门槛。然而,令人振奋的是,国家正通过一系列策略和措施,如算力补贴、发放算力券,以及鼓励更多企业共同构建生态,积极推动智算算力的加速落地,从而降低使用门槛。
九章云极DataCanvas打造智算操作系统的初衷,一方面是想通过软件的方式,让用户能够轻松、自然地运用智算算力,另一方面也能更有效地提升硬件的使用效率。最终目标是降低使用成本,让智算算力更广泛地惠及各行各业。
适度超前 也要有耐心
为了智能化进程,构建新的算力基础设施至关重要。从宏观角度进行深思熟虑,如同国家从顶层设计的视角出发,早已精准计算了这笔大账。通过“新基建”战略筑起算力领先的壁垒,消除算力对人工智能发展的制约。在“适度超前布局国家算力基础设施”的政策引领下,未来三年更加高效地建成世界领先的算力基础设施,这不仅是国家战略的需要,也是业内共同的期盼。
然而,在推动算力基础设施适度超前发展以及智算操作系统的落地过程中,仍需保持足够的耐心。要让全社会、整个产业深刻认识到其重要性和必要性,通过真抓实干,让这一切自然成熟、水到渠成,确保算力基础设施与智算操作系统的建设真正落地生根,为智能化时代的发展提供坚实的支撑。