智能算力发展趋势洞察 -

智能算力发展趋势洞察

发布时间：2024-04-24 文章来源：中兴通讯

　　（本文作者：中兴通讯云计算规划总工，朱堃）

　　随着ChatGPT横空出世，人工智能（AI）技术在短时间内呈现“涌现”态势，并成为推动社会进步的关键力量。AI技术的广泛应用给我们的生活和工作带来了巨大的改变，而这一切的背后离不开算力基础设施的支持。AI训练任务以及推理应用对算力有着高性能、大规模并行、低时延互联的要求，导致对计算、存储、互联网络有了不同于通用计算的要求，同时对算力聚合的要求也引发了基础设施管理平台的创新。

　　AI芯片

　　除了大模型训推有高性能矩阵运算的要求之外，大模型参数量越大对内存容量的需求越大，同时多颗AI芯片间的大量数据交互也带来了对互联总线高带宽、低时延的要求。因此，算力、显存以及互联总线形成了对AI芯片的三大能力要求。

　　算力方面，由于人工智能采用基于多层神经网络的机器学习技术，需要对大量数据进行矩阵运算，例如矩阵乘法、卷积、激活函数等。传统CPU以复杂数据流程见长，为此将更多的空间让渡给了控制单元和缓存单元，计算单元只占25%的空间，一般只有几十个算术逻辑单元（ALU），处理这些并行化和向量化运算的效率不高。而处理图像和图形相关运算的GPU计算单元占90%的空间，高达几千的ALU适合对密集数据进行并行处理。在2017年后，主流AI芯片厂家发布专门针对矩阵运算加速的AI GPU（GPGPU，general purpose computing on GPU），为大模型训练提供了更高的计算性能。除硬件之外，GPU厂家通常会提供相应的开发平台（如NVIDIA CUDA），它使得开发者能够直接使用GPU进行编程和优化，充分发挥GPU的计算能力。

　　显存方面，Transformer类模型参数量按照平均每两年翻240倍的速度增长，与之相比，AI内存容量仅以每两年翻2倍的速率增长，已经远远不能匹配大模型增长速率。为解决该问题，内存统一寻址的“超级节点”是目前比较可行的方案，如：定制AI服务器，通过高速互联技术组成1个超级节点（包含256颗GPU和256颗CPU），支持GPU和CPU之间的内存统一寻址，内存容量可以提升230倍。此外，AI芯片内采用计算和存储分离的冯·诺依曼架构，芯片60%~90%的能量消耗在数据搬移过程中。按照H800的最大功耗700W的60%来估算，数据搬移消耗了420W。为解决该问题，存算一体技术将内存与计算完全融合，避免数据搬移，大幅提升了能效。

　　互联总线方面，大模型3D并行拆分后，带来了芯片间数据传输的要求。其中数据传输量最大的张量并行（TP），在传输时间中的占比超90%。有测试数据表明，使用同样数量的服务器训练GPT-3，采用NVLink相比PCIE，一个Micro-batch在相邻GPU之间的传输时间从246.1ms降低到 78.7ms，整体训练时间从40.6天降低到22.8天，因此互联总线的带宽成为关键。

〖浏览次数：〗

分会动态

行业资讯

智能算力发展趋势洞察