保持学习之心，持续为AI算力底座添砖加瓦

博士毕业后，我加入华为2012实验室中央软件院计算机网络与协议实验室，投身于AI算力底座通信加速优化研究工作。相较于在校期间专注于AI基础算法，如今的研究方向对我来说无疑是一次重大的转变与挑战。在参与多个攻关项目的过程中，理论和实践不断碰撞、融合，也逐渐谱写出我在这片新土壤之上的故事……

入职之初，面对新赛道，我给自己制定了明确的目标：基于自身AI知识的储备，识别并优化AI训推过程中的通信瓶颈问题，充分发挥AI基础设施的网络通信能力。为此，我系统学习了大模型分布式训练的并行方案，结合华为昇腾A2/A3集群的组网拓扑结构，和团队成员构建了AI分布式训练的通信流量模型，作为通信瓶颈问题分析和优化设计的基础。

随着DeepSeekV3/R1在模型性能和推理成本上的突破性进展，MOE模型和大EP推理方案成为了业界关注的重点。如何在昇腾集群上实现业界领先的推理性能，是打赢昇腾推理格局之战的关键。为此，今年年初我们联合产品线团队展开了大EP通信算子性能优化攻关。

作为性能优化方案的设计负责人，我虽然具备通信控制面调度优化的经验，但对通信数据面的开发却几乎零基础。昇腾芯片微架构、AscendC编程语言等，对我们来说都是全新的挑战。加之A3超节点环境资源紧张，性能测试窗口短，一时间可谓困难重重。

我们一边紧急学习昇腾芯片微架构和AscendC编程语言，一边深入研读基线算子代码，并对比学习了DeepSeek开源的DeepEP方案。在完成一轮总体性能分析后，我们制定了初步的优化方案。经过一周多的编程实现，单算子测试结果令人欣喜：通信耗时下降超过20%。然而，当我们将算子接入完整模型进行测试时，结果却令人意外——性能不仅未提升，反而恶化了XX ms。团队一度陷入低谷，一时间难以接受如此努力却适得其反。关键时刻，团队中的资深成员提醒我们：“做性能优化要像在足球场上踢比赛一样，不管落后多少，不到最后一刻裁判吹哨绝不放弃”。他的话重燃了大家的信心。我们重新审视测试结果，发现问题源于接入模型时MOE专家负载不均，导致算子进入时间错乱，同步等待时间变长。找到问题后，我们迅速调整策略，重新设计了优化方案。再次迭代后，新版算子在模型中成功验证，带来了可观的性能提升。随后，我们进一步挖掘了A3集群通信协议与芯片架构特性，开发了多个优化点，最终将推理TPOT降低了XX ms，单卡TPS提升了XXX。

*来源/《2012实验室战地英雄》