当前位置: > 行业资讯 >

行业资讯

智能算力发展趋势洞察

发布时间:2024-04-24 文章来源:中兴通讯
  (本文作者:中兴通讯云计算规划总工,朱堃)
 
  随着ChatGPT横空出世,人工智能(AI)技术在短时间内呈现“涌现”态势,并成为推动社会进步的关键力量。AI技术的广泛应用给我们的生活和工作带来了巨大的改变,而这一切的背后离不开算力基础设施的支持。AI训练任务以及推理应用对算力有着高性能、大规模并行、低时延互联的要求,导致对计算、存储、互联网络有了不同于通用计算的要求,同时对算力聚合的要求也引发了基础设施管理平台的创新。
 
  AI芯片
 
  除了大模型训推有高性能矩阵运算的要求之外,大模型参数量越大对内存容量的需求越大,同时多颗AI芯片间的大量数据交互也带来了对互联总线高带宽、低时延的要求。因此,算力、显存以及互联总线形成了对AI芯片的三大能力要求。
 
  算力方面,由于人工智能采用基于多层神经网络的机器学习技术,需要对大量数据进行矩阵运算,例如矩阵乘法、卷积、激活函数等。传统CPU以复杂数据流程见长,为此将更多的空间让渡给了控制单元和缓存单元,计算单元只占25%的空间,一般只有几十个算术逻辑单元(ALU),处理这些并行化和向量化运算的效率不高。而处理图像和图形相关运算的GPU计算单元占90%的空间,高达几千的ALU适合对密集数据进行并行处理。在2017年后,主流AI芯片厂家发布专门针对矩阵运算加速的AI GPU(GPGPU,general purpose computing on GPU),为大模型训练提供了更高的计算性能。除硬件之外,GPU厂家通常会提供相应的开发平台(如NVIDIA CUDA),它使得开发者能够直接使用GPU进行编程和优化,充分发挥GPU的计算能力。
 
  显存方面,Transformer类模型参数量按照平均每两年翻240倍的速度增长,与之相比,AI内存容量仅以每两年翻2倍的速率增长,已经远远不能匹配大模型增长速率。为解决该问题,内存统一寻址的“超级节点”是目前比较可行的方案,如:定制AI服务器,通过高速互联技术组成1个超级节点(包含256颗GPU和256颗CPU),支持GPU和CPU之间的内存统一寻址,内存容量可以提升230倍。此外,AI芯片内采用计算和存储分离的冯·诺依曼架构,芯片60%~90%的能量消耗在数据搬移过程中。按照H800的最大功耗700W的60%来估算,数据搬移消耗了420W。为解决该问题,存算一体技术将内存与计算完全融合,避免数据搬移,大幅提升了能效。
 
  互联总线方面,大模型3D并行拆分后,带来了芯片间数据传输的要求。其中数据传输量最大的张量并行(TP),在传输时间中的占比超90%。有测试数据表明,使用同样数量的服务器训练GPT-3,采用NVLink相比PCIE,一个Micro-batch在相邻GPU之间的传输时间从246.1ms降低到 78.7ms,整体训练时间从40.6天降低到22.8天,因此互联总线的带宽成为关键。
〖 浏览次数: