新华三智算中心解决方案铸就AIGC算网基石|gpu|AI|集群

　　　AIGC与ChatGPT简介

　　随着人工智能技术的不断发展，分析式AI技术持续迭代积累，带来了生成式AI的突破，生成式人工智能技术(AIGC)在原本数据分析的基础上，通过学习数据的产生模式，可以创造出新的样本数据。在此背景下，2022年11月底，OpenAI发布了集代码创作、文本撰写、翻译等功能于一体的ChatGPT模型。ChatGPT是在GPT-3大模型基础之上演化而来，但由于GPT-3存在偏见歧视及安全性风险以及生成内容不符合人类的偏好的问题，所以ChatGPT利用了RLHF方法(人类反馈强化学习)来提升效果，使得对话更符合人类偏好。因此，它被广泛应用于各种场景，包括程序生成、数据分析、内容创作等，而且有较高的认可度和关注度。

　　AIGC对基础设施的挑战

　　基础模型(基于大规模数据集和大规模算力训练的大型预训练模型)具备通用性和性能方面优势，已成为AI能力基座。以ChatGPT为例，其根基还是在通用基础大模型底座GPT-3上。训练超大基础模型需要多方面的关键技术作为支撑，算法、算力和数据是AI发展的三驾马车，算法依赖大模型参数的提升以及模型本身的优化，而算力和数据则需要依赖传统的GPU服务器、存储以及网络来实现相互交融并正反馈于算法本身。

　　首先，我们来看大模型训练对AI算力的需求。伴随大模型的不断升级，模型训练对算力需求也不断增加，约每过3个月就会翻一倍。GPT-3模型(1750亿参数、45TB训练语料、消耗算力3640PFlops/s-Days)，PaLM模型(5400亿参数、2.5亿个数据集、消耗算力29600 PFlops/s-Days)。ChatGPT按照1300万/天的访问量，估算需要3万+ GPU。

　　其次，大模型训练对数据存储也提出了严苛要求。训练过程中会面临显存墙问题(模型是否能跑起来)以及计算/通信墙问题(能否在合理时间内完成训练)。单从显存占用角度来看，单卡80G显存理论支持25亿参数的模型训练(不做ZeRO极端优化)，但考虑实际训练时间、数据规模和迭代轮次，需要在数据并行、模型并行和流水线并行之间进行权衡，需要投入更多的GPU卡来满足训练对显存的占用。与此同时，需要对数据集进行本地缓存来加速数据访问(尤其是图像)，对存储的性能提出了更高的要求。

　　最后就是高性能网络方面。大模型训练集群往往采用混合并行(模型并行+数据并行+流水并行)的方式进行训练，GPU集群从存储集群拉去样本数据、GPU节点之间的参数交互，这两个数据传输的流程都需要高性能、低延时的网络作为基础。

　　新华三智算中心全栈解决方案能力

　　新华三基于对AIGC全流程技术需求的深刻理解，推出了智算中心全栈解决方案，依靠MLOps、数据管理、版本化管理以及弹性架构等优势，可为广大互联网用户提供业界最全最细致的AI支撑能力。

　　一、基于绿洲数据平台可以提供数据全流水线管理能力，配合傲飞智算平台可以支持从训练到推理的全生命周期流水线，提供精细化的自动化数据处理以及精细化的模型性能监控调优。

　　整个AI集群的运转过程可以大致用上图概括：①数据采集→②数据治理→③数据目录→④数据标注→⑤算法开发→⑥模型训练→⑦模型管理→⑧模型推理。其中①②③是由数据平台提供相应能力，后续的一系列流程则需要智算平台进行支撑。值得一提的是，傲飞智算平台可以通过相关性能指标(模型准确率/GPU内存占用/模型大小/吞吐量/延时)进行模型量化：解释在模型调优过程中，数据的变化以及算法的变化，从而使得AI任务端到端可视化。

　　二、算力基础设施层作为整个AI集群的执行点，需要GPU计算、网络以及存储等产品的全方位支撑，结合AI集群的运转流程，其整体架构如下所示：

　　该架构整体上分为3个区域：数据资源区、智算训练区以及智算推理区。从数据采集到数据标注均在数据资源完成，而模型训练、模型管理以及模型推理则在另外两个区域完成。数据资源区与智算训练区需要用高性能网络作FullMesh互联，智算训练区的不同GPU节点同样需要FullMesh互联。接下来我们依次看下新华三全面的基础设施能力：

　　智算训练集群

　　组建训练集群的服务器大多使用搭载专用GPU模组的标准机，如H3C UniServer R5500 G5。H3C UniServer R5500 G5支持Intel Whitley平台和AMD Milan双平台，最多可以提供128个CPU核心，可最大程度满足训练集群的CPU算力需求。

　　训练集群将预训练数据集拉取到本地后需要先存储到NVMe SSD里，基于GDS(GDS, GPU Direct Storage)，可以通过PCIe Switch将NVMe SSD里的数据直接读取到GPU显存里。

　　GPU在训练过程中会进行频繁通信，包括P2P通信(1对1)和Collective通信(1对多或多对多)。在节点内，GPU之间的通信互联带宽可达400GB/s。在节点之间，GPU通信使用RDMA网络，通过GDR(GDR, GPU Direct RDMA)技术支持， RDMA网卡可以绕过CPU、内存，直接从远端节点读取数据到GPU显存。

　　根据数据集、模型大小的不同，会产生多种训练方式，比如数据并行、模型并行、流水线并行、混合并行等。根据训练方式的不同，训练集群的GPU节点也会进行对应的拆分、组合。为了最大程度复用训练集群资源，在选型时需要保证拓扑均衡的服务器系统架构，一般NVMe硬盘：PCIe Switch：RDMA网卡需要满足4:4:4或8:4:8的配比关系;此外，在集群组网时，推荐使用FullMesh的网络架构。

　　H3C UniServer R5500 G5最大支持12个U.2 NVMe SSD(8个支持GDS)、10个X16网卡(8个支持GDR)，可灵活支持4张NVMe SSD/网卡或8张NVMe SSD/网卡的配置，当前均有方案在客户侧落地。

　　一些大型互联网公司还会使用自研GPU Box搭配计算节点的方式组建训练集群，GPU Box里面会搭载专用GPU模组或其他厂商的OAM模组。OAM(OAM, OCP Accelerator Module)是开源的GPU模块，由OCP社区服务器项目组下的OAI(OAI, Open Accelerator Infrastructure)小组开发并制定标准。

　　OAM包括GPU和UBB，UBB(UBB, Universal Baseboard)是承载GPU的基板，可以在服务器整机中兼容不同厂家的GPU。新华三是OAI 2.0规范制定的重要参与者，并计划后续在R5500 G6上开发可支持不同厂家GPU的OAM模组。

　　在2023年初，新华三发布了新一代GPU机型R5500 G6，支持Intel Eagle Stream和AMD Genoa平台，PCIe 5.0及400GE网络的加持，相信会给客户带来更高的算力提升。

　　智算推理集群

　　GPU推理集群的规模主要取决于业务预期的并发请求，一般会多机多卡多实例部署。针对大规模推理场景，H3C UniServer R5300 G5支持多种类型的GPU方案，包括4 PCIe GPU方案、8 PCIe GPU方案和16 PCIe GPU方案，以应对不同客户不同算力的推理集群搭建需求。

　　在2022年11月份，新华三发布了基于AMD Genoa平台的GPU服务器R5350 G6，可实现90%的CPU性能提升和50%的内核数量提升;多种类型人工智能加速卡的支持，可应对人工智能不同场景下对异构算力的需求。此外，在2023年上半年，新华三还会发布基于Intel Eagle Stream平台的GPU服务器R5300 G6，请大家拭目以待。

　　高性能存储

　　高性能存储一般采用分布式并行文件存储，如新华三CX系列存储。新华三 CX系列存储采用全对称分布式架构，结合IBM Spectrum Scale(原名GPFS, General Parallel File System)，可提供高带宽、低延时的存储服务。

　　高性能网络

　　新华三提供了多种可选的高性能网络方案，以供各用户不同业务场景应用。

　　1.2级Clos TH4+TD4组网方案，最大提供1024个200G端口接入能力

　　2.2级Clos TH4+TH4组网方案，最大提供4096个200G端口接入能力

　　以上两种方案均采用了以太网交换机RoCE组网方案，可以配合新华三自主研发的AI-ECN调优手段进行快速和精确部署。AI-ECN调优算法模型具有效率高、计算量小的特点，同时支持控制器集中式调优和网络设备分布式本地调优两种模式。例如，在集中式调优模式下，不需要专用的AI芯片，使用搭载Intel XEON-SP服务器的管控析集群，就可在较大规模网络管理下，开启ECN水线调优;在本地模式下，搭载Intel XEON-D 和 ATOM的新华三网络交换机，仅以较小的CPU开销就可以完成调优。

　　RoCE方案是业界常用的AI高性能组网方案，除此之外，有些用户还会考虑采用集中式框式设备实现小规模的AI组网：

　　这种组网的优势在于无需部署复杂的无损以太网(PFC/ECN)功能，仅通过一台设备便可以实现1536个200G端口接入能力。新华三S125R/CR系列采用正交CLOS无中板设计，业务板与交换板之间采用信元转发，完美得解决了拥塞问题。实际应用场景中，在吞吐和时延等方面表现良好。但是这种组网由于单机框槽位问题，组网规模受限。

　　为了优化这个问题，新华三继而推出了DDC(Distributed Disaggregated Chassis，分布式分解结构)解决方案。

　　简单介绍DDC其实就是将框式交换机拆分形成盒式组网，但是盒式交换机之间依旧采用信元交换，采用JR2C+双芯片方案最大可支持3456个200G端口接入能力。DDC对比RoCE在网络性能和网络收敛方面提升明显：ALL2ALL测试场景中，DDC完成时间可提高20-30%;无论UP/DOWN还是手工插拔测试方式，DDC的收敛时间缩短了几百到上千倍。

　　随着大模型训练所需网络带宽的不断提升，网络主芯片性能也会迅速增加，当800G/1.6T时代来临时，CPO/NPO交换机将会登上互联网舞台，而新华三也早已有所布局：