新浪新闻客户端

华为王雷:华为星河AI网络助力算力基础设施高质量发展

华为王雷:华为星河AI网络助力算力基础设施高质量发展
2023年10月19日 11:54

  近日,工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等六部门联合印发《算力基础设施高质量发展行动计划》(以下简称《行动计划》)。该计划提出,到2025年,“算力规模超过300 EFLOPS,智能算力占比达到35%,东西部算力平衡协调发展”,并明确“加强计算、网络、存储和应用协同创新”,发挥算力对数字经济的驱动作用。

  华为数据通信产品线总裁王雷表示,全球算力发展进入快车道,《行动计划》的发布恰逢其时。顺应国家政策和行业智能化趋势,华为自主创新的星河AI网络解决方案应运而生,将与行业客户和产业伙伴共同推动算力基础设施自主创新高质量发展。

  运载力是算力服务的“智算高速公路”

  随着大模型训练的不断深入,AI的发展跨越拐点,智能时代正在加速到来。《行动计划》指出,“算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力基础设施向社会提供服务”,要持续“推动以云服务方式整合算力资源,充分发挥云计算资源弹性调度优势”。由此可见,未来的算力服务模式,将是“以自主创新的智算中心为核心,对外提供智算云服务”,此模式将惠及千行万业。

  智算云服务主要包括算力的产生、传送和接入三部分,而这三部分的质量都与网络运载力息息相关。只有和网络运载力协同配合,算力才能发挥更大价值。在算力产生方面,千卡/万卡集群网络负载率低于50%是普遍现象,这意味着30%的服务器处于空闲等待数据的状态,算力无法发挥出全部力量。同时,大模型训练的效率非常低,万亿参数大模型一次训练需要1~2个月,训练过程中因系统故障中断、分布式训练通信开销等因素,导致有效训练时间不足50%,造成大量算力浪费。

  在算力的传送和接入方面,一个超级智算中心要服务上亿用户,数据可能要跨越几千公里远距离传输,同时广域网上可能会有上亿的算力流并行传输。因此,确保算力及时有效到达,保障算力不受限于接入链路的质量,无论是城市乡镇还是企业个人,都能受惠于人工智能。

  华为星河AI网络,打造AI时代最强运力

  面向智算云服务的新模式,华为发布了自主创新的星河AI网络解决方案,为千行万业提供高效能的训练、不停歇的算力和普惠的AI服务,打造AI时代最强运力。

  1.超高吞吐,优化算力高效运载质量:星河AI网络基于新一代星河智算交换机,提供400GE/800GE最高密端口,仅2层组网即可实现18K卡的无收敛集群组网,满足超万亿参数大模型训练,有效提升了算力规模;基于独创的网络级负载均衡技术NSLB,将AI网络吞吐从50%提升到98%,AI训练效率提升20%,有效提升算力效率,万卡集群场景,相当于“白送”2千卡。

  2.超高并发,提升枢纽网络传输效率:基于IPv6、SRv6等创新技术,星河AI网络实现多路径智能调度,可同时调度千万算力流并分配合理路径,百T数据安全小时达,实现广域网络零拥塞。

  3.弹性提速,强化算力接入网络能力:在1%网络丢包的情况下,星河AI网络基于Fillp创新传输协议可以将带宽利用率从10%提升到80%,抵抗网络劣化,保证了即使在网络质量不好的偏远地区,AI算力也能如期到达。

  4.弹性重保,探索算力协同调度机制:星河AI网络基于网络数字地图和APN6应用感知技术,秒级感知重保应用诉求并预留资源,随呼随建助力大模型应用实时推理,加速人工智能在千行万业的落地。

  同时,行业智能化时代,数据通信的安全也至关重要。《行动计划》明确指出,要“加强安全保障能力建设,增强网络安全保障能力”。华为通过AI引擎对API访问的整个生命周期进行学习,构建API行为模型,通过行为来识别未知攻击,未知威胁识别率高达95%,检测性能业界2倍。

  华为星河AI网络,以网强算,以高运力释放AI时代高算力,加速行业智能化。面向未来,华为将携手行业客户和产业伙伴一起推动AI大模型创新变革,通过行业实践和验证加快AI产业化落地,引领社会发展的新进程。

  (来源:News快报)

责任编辑:孙青扬

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2023 SINA Corporation

All Rights Reserved 新浪公司 版权所有