天翼云智算平台推动AI产业“走深向实”|天翼云|人工智能

　　随着超大规模人工智能模型和海量数据的爆发，人工智能对算力的需求也随之不断走高。根据IDC发布的《2022-2023中国人工智能计算力发展评估报告》显示，中国人工智能计算力保持快速增长，2022年智能算力规模达到268百亿亿次/秒(EFLOPS)，超过通用算力规模。

　　作为云服务国家队，天翼云积极推进算力普惠发展，已形成“2+4+31+X”资源布局，构建了“集中化+区域化+属地化+边缘化”的云网基础设施，为人工智能夯实“算力底座”，助力AI快速完成数据训练，提高计算与模拟的精准性。

　　为了适应市场智能算力快速增长的速度，天翼云聚焦人工智能场景创新，推出天翼云智算平台，以普惠智能算力为基础，支持大模型训练、智能推荐、无人驾驶、生命科学、NLP等业务场景。

　　天翼云智算平台依托天翼云分布式架构的云底座和海量的计算、存储、网络资源，具有高性能、高弹性、高速互联、高性价比等特性，能够满足企业不断增长的高性能算力使用需求。

　　日前，天翼云智算平台通过中国信息通信研究院《可信算力服务平台技术能力要求第3部分：智算平台》评估，成为业内首批通过该项评估的云服务商。

　　具体来看，天翼云智算平台主要有以下四个方面的差异化优势：

　　高性能底座支撑能力：天翼云智算平台基于天翼云TeleCloudOS4.0云网底座，覆盖全场景算力需求;打造国产化能力体系，适配国产主流GPU芯片以及各种国产服务器，适配自研云服务器操作系统CTyunOS;集成弹性计算、分布式存储、云网络三大基础核心技术，软硬协同硬件加速，提供全量IaaS产品服务。

　　GPU虚拟化能力：天翼云智算平台支持主流Mediated Passthrough(vGPU)、直通透传等虚拟化技术;支持软硬件层面的容器虚拟化技术，软件方面支持API劫持及其他算力和显存灵活分配能力，硬件方面支持MIG、vNPU等特性，从物理资源层面分配单卡资源。

　　高效的调度能力：资源调度方面，天翼云智算平台实现对GPU、NPU、CPU等异构算力资源的混合调度，训练、推理任务统一调度，实现了异构算力和异构任务的统一调度;任务调度方面，提供基于任务优先级、任务SLA、资源独占式调度、共享式调度、抢占式调度，灵活支持各类差异化的用户需求。

　　分布式训练能力：天翼云智算平台提供分布式训练一站式解决方案，融合GPU拓扑感知、亲和调度、高IO并行文件系统等底层技术，支持多种模型训练方式，兼容主流AI框架，扩展定制业界主流分布式训练方案，提升训练数据量，缩短模型交付周期;提供定制化算法框架，采用代码生成等方式，内置提供丰富的算子，简化数据集导入、特征工程处理、预训练模型依赖等步骤，提升AI训练开发效率;针对大模型分布式环境下的训练，显存优化方面使用ZeRo等技术，打破显存与内存的隔阂，降低训练的显存开销。

　　随着国内新一波人工智能浪潮袭来以及AI规模化落地应用，具备“更高、更快、更强”能力的智能计算基础设施平台被人工智能行业所青睐。天翼云智算平台适用于城市治理、AI质检、搜索推荐、自动驾驶、金融、科学研究等领域，可提供人工智能应用所需算力服务、数据服务和算法服务，通过算力的生产、聚合、调度和释放，促进AI产业聚集发展。