博士毕业后,我加入华为2012实验室中央软件院计算机网络与协议实验室,投身于AI算力底座通信加速优化研究工作。相较于在校期间专注于AI基础算法,如今的研究方向对我来说无疑是一次重大的转变与挑战。在参与多个攻关项目的过程中,理论和实践不断碰撞、融合,也逐渐谱写出我在这片新土壤之上的故事……


入职之初,面对新赛道,我给自己制定了明确的目标:基于自身AI知识的储备,识别并优化AI训推过程中的通信瓶颈问题,充分发挥AI基础设施的网络通信能力。为此,我系统学习了大模型分布式训练的并行方案,结合华为昇腾A2/A3集群的组网拓扑结构,和团队成员构建了AI分布式训练的通信流量模型,作为通信瓶颈问题分析和优化设计的基础。


随着DeepSeekV3/R1在模型性能和推理成本上的突破性进展,MOE模型和大EP推理方案成为了业界关注的重点。如何在昇腾集群上实现业界领先的推理性能,是打赢昇腾推理格局之战的关键。为此,今年年初我们联合产品线团队展开了大EP通信算子性能优化攻关。


作为性能优化方案的设计负责人,我虽然具备通信控制面调度优化的经验,但对通信数据面的开发却几乎零基础。昇腾芯片微架构、AscendC编程语言等,对我们来说都是全新的挑战。加之A3超节点环境资源紧张,性能测试窗口短,一时间可谓困难重重。


我们一边紧急学习昇腾芯片微架构和AscendC编程语言,一边深入研读基线算子代码,并对比学习了DeepSeek开源的DeepEP方案。在完成一轮总体性能分析后,我们制定了初步的优化方案。经过一周多的编程实现,单算子测试结果令人欣喜:通信耗时下降超过20%。然而,当我们将算子接入完整模型进行测试时,结果却令人意外——性能不仅未提升,反而恶化了XX ms。团队一度陷入低谷,一时间难以接受如此努力却适得其反。关键时刻,团队中的资深成员提醒我们:“做性能优化要像在足球场上踢比赛一样,不管落后多少,不到最后一刻裁判吹哨绝不放弃”。他的话重燃了大家的信心。我们重新审视测试结果,发现问题源于接入模型时MOE专家负载不均,导致算子进入时间错乱,同步等待时间变长。找到问题后,我们迅速调整策略,重新设计了优化方案。再次迭代后,新版算子在模型中成功验证,带来了可观的性能提升。随后,我们进一步挖掘了A3集群通信协议与芯片架构特性,开发了多个优化点,最终将推理TPOT降低了XX ms,单卡TPS提升了XXX。


*来源/《2012实验室战地英雄》