2025年联想创新科技大会(2025 Lenovo Tech World)上,联想集团副总裁、中国基础设施业务群总经理陈振宽,宣布联想万全异构智算平台携四大创新技术重磅升级到3.0版本,该新版本已在国家级高质量AI集群、行业级与科研级智算、企业混合算力、企业AI基础设施等场景中,取得了多个业界领先的实践成果。

作为一款高度自动化、支持AI全流程开发的算力管理平台,联想万全异构智算平台自去年问世以来持续进化。最新的3.0版在原来的算力匹配魔方、超智融合调度、AI高效断点续训、联想集合通信库和GPU内核态虚拟化等5大创新技术基础上,新增了AI推理加速算法集、AI编译优化器、AI训推慢节点故障与自愈系统、专家并行通信算法等四大突破性创新技术,直击大模型应用落地的关键痛点,从而为DeepSeek R1/V3等千亿级大模型提供更高效的运行环境,并不断突破算力效率极限。
在该平台的加持下,实测单机部署DeepSeek 671B模型吞吐突破12000 tokens/s,在极限场景下更是创下37000+ tokens/s的行业新纪录,充分展示了联想万全异构智算平台的技术领先性。

创新技术1:
AI推理加速算法集,多维优化突破性能瓶颈
MLA(多头潜在注意力)和投机推理是DeepSeek R1/V3的两大创新技术。MLA通过把高维数据压缩投射到低维潜在空间,从大矩阵转换为小矩阵,去除冗余信息,以减少对计算和显存的要求。而投机推理技术通过小模型先尝试回答、大模型审核,如果通过则直接输出结果,从而实现算力的节约。
联想万全异构智算平台3.0实现了MLA(多头潜在注意力)和投机推理这两大技术的工程化落地。同时,平台还引入了混合精度量化技术,通过识别离群点,将共同特征的数据进行归类,再根据数据对结果的影响来适配不同的数据精度,以降低算力消耗;再结合分布式并行,借助并行规划器自动进行并行策略(数据并行、张量并行、流水线并行及专家并行)的选择,进行任务的切分,以最大程度地发挥GPU的效能。
通过综合采用这些业内领先的技术,联想的AI推理性能相对业界最优方案保持20%以上的优势。
创新技术2:
AI编译优化器,从代码到算力的效率革命
AI应用在执行之前需要进行编译,这个过程就是将高级代码转换为可以高效运行的低级指令的过程,包括将算子合并和优化。联想万全异构智算平台的AI编译优化器能够自动用高效算子替换低效算子,自动优化计算路径,最后自动重新编译,从而大幅简化AI计算过程,节省算力和显存资源,可降低训练和推理计算开销各15%以上。

创新技术3:
AI训推慢节点故障与自愈系统,超级容错能力
为了应对可能与突发的故障,AI集群在进行训练或者推理时会定时进行备份,以防发生意外中断时重新恢复,然而,恢复过程需要时间。而更好的方法是提前发现故障点,在出现问题前把问题解决掉。

联想万全异构智算平台中的AI训推慢节点故障与自愈系统通过对集群进行异步实时的状态监测与全面故障分析,依据故障根源分析结果并自动化解决故障、恢复算力,将发现故障及自愈时间控制在百卡秒级、千卡分钟级、万卡十分钟级。而且,这个状态监测是在不影响训推工作的前提下完成的。
创新技术4:
专家并行通信算法,破解MoE架构通信难题
DeepSeek通过MoE大大降低了计算成本,同时也增加了通信的复杂度和通信开销,比如集合通信从ALL Reduce转向ALL to ALL。
联想基于多年服务器和交换机通信技术的积累,针对大模型MoE专家架构特点,通过对通信计算原语、访存方式和网络路由算法的协同优化,来减少通信延迟和带宽占用,可将推理延时降低到原来的1/3,同时将训推过程中网络带宽利用率从50%提升至90%。
当前,AI算力需求呈指数级增长,企业级市场正面临智能算力紧缺和算力利用效率低下的双重挑战。联想万全异构智算平台3.0以四大创新技术为企业提供了一个覆盖大模型全生命周期的高效算力解决方案,彰显了联想的技术实力,更是联想对“普惠算力”愿景的有力践行——让每家企业都能以经济高效的方式驾驭智能时代的澎湃算力。