AI技术爆发性增长引发算力需求,算法优化、硬件升级、系统架构等多维度都需要深度创新,以满足日益增长的计算密集型任务处理需求。
9月24日,在全国高性能计算学术年会上,由中国科学院计算技术研究所、阿里云等超40家机构组建的高通量以太网联盟(ETH+ Consortium)对外发布高通量以太网ETH+协议1.0版本,基于ETH+协议的网络协议IP、开源网卡等硬件和系统也首次公开。
智算网络的底层基础是网络协议,以高通量以太网为核心的新一代开放智算网络加速从实验室走向产业化应用,为大模型时代提供网络基础。
在大模型时代,单纯依赖单卡性能提升已不足以应对训练和推理过程中迅猛增长的算力需求,网络对系统的重要性日益凸显,资金投入和市场需求迅速增长,产业生态竞争也更加激烈。在此背景下,中国科学院计算技术研究所和阿里云于去年7月联合发起成立智算网络生态组织“高通量以太网联盟”,希望基于开源开放的技术理念构建我国智算网络生态。高通量以太网联盟成员还包括北京大学、平头哥、盛科、腾讯、字节跳动、中兴、新华三、云合智网、壁仞等40余家机构和企业。
高通量以太网联盟共同主席、阿里云研发副总裁、基础设施网络负责人蔡德忠表示,联盟集结了产学研用各方力量,旨在基于开放以太网生态,面向智算网络研发及制定统一的技术标准和底座。联盟将促进国内芯片公司间的合作与交流,推动技术创新和成果转化。高通量以太网ETH+协议优化了帧格式,有效载荷比提升74%,数据传输效率提高。通过深度支持链路层和物理层的重传技术,ETH+以太网的语义可靠性得到提升。基于RDMA在网计算技术,集合通信性能提升30%以上。目前已有多家芯片公司基于ETH+协议实现相关产品的研发和落地,预计明年初将有一批基于国产网络芯片的集群面世。