阿里云×平头哥，模型推理提升13倍_热门资讯-阿里云政企业务

2026年开年不久的AI圈，似乎比去年更加热闹。

OpenClaw在短短几个月里，成为开发者圈几乎“人手一只”的本地助手，甚至引得部委和协会出手预警潜在安全隐患；各类AI Coding工具的评测和榜单铺天盖地，谁家开发者一年“烧掉”了多少亿Token，这种费钱的事儿也成了新的流量素材；不同于Qwen不断上新，DeepSeek持续发布新论文，V4的时间点被一再猜测；

这些看上去分散的事件，背后其实都在指向同一条主线：AI的焦点正转向推理。

模型越来越聪明，智能体越来越能干活、越来越会干活。但企业首先要面对的，是另一组更现实的问题：一次调用究竟消耗多少算力，复杂任务的延迟能不能降下来，系统成本会不会先于业务价值一起失控。

也正因此，引发行业关注的，已经不只是“能力还能提升多少”，而是“推理效率还能被重写到什么程度”；AI Coding被密集讨论，也不只是因为它能替开发者多写几行代码，而是因为所有人都越来越直观地意识到：模型能力每向前一步，推理成本都可能被同步放大。

而当OpenClaw和一众Agent框架把智能体从聊天窗口里放出来，大家对“推理”的期待更是被进一步放大。它不再只为一次问答调用，而是要支撑长时运行、工具调用、多轮决策和真实权限交互的完整链路。

于是，各种关于推理的矛盾开始集中显形：

一边是算力供给依然紧张，国内算力与顶级GPU之间的差距，逼着工程师在量化、并行、MoE、通信等环节不断“抠细节”；

一边是模型结构与工作流快速演化，从Chat到Thinking，再到能够长时间自主运行的Agent，单次任务对推理吞吐、上下文长度和系统稳定性的要求同时抬升；

另一边，监管与安全预警也在不断提醒行业：默认“全能”的智能体如果没有边界，不只是贵，还可能危险。

这也意味着，“推理范式”已经不再是一个单纯的工程优化问题，而是一条贯穿芯片、云平台、模型团队和业务场景的共同问题链：有限的算力究竟应该优先分配给哪里？是让模型想得更久一点，还是让它更快把事情做完？是继续追求极致的单卡性能，还是在成本、时延与安全之间重建平衡？

带着这些问题，我们请来了两位站在不同层级的一线从业者——长期在云端推理系统里“抠性能”的阿里云专有云推理加速负责人冯梦轲，以及在芯片与算力架构一侧“抠极限”的平头哥半导体产品总监黄伟。

接下来的对话，将从这些热点事件切入，沿着推理范式、AI Coding、企业智能体与国产算力的多重拉扯，去拆解一个正在决定行业走向的核心问题：当推理性能与推理成本成为新一轮AI竞赛的主战场，整个产业会被推向哪里。

推理范式现状及变化

主持人：每年年初，AI行业都会有不少重要变化，今年也不例外。虽然没有去年的DeepSeek发布，但今年有OpenClaw以及一系列相关进展。两位今年印象最深的一件事是什么？

冯梦轲：我感受最深的是，推理加速技术带来的“推背感”很强。从To B场景的AI Coding，到To C场景的OpenClaw，它们都在迅速成为行业共识，并得到广泛应用。这里面一个关键变化是，大模型正在从“对话”阶段走向“做事”阶段。

去年年初，像DeepSeek R1的出现，包括从GPT-5到GPT-5.1，Chat模式下的变化更多体现在对话体验和语气个性化上，用户体感并没有那么明显。相比之下，To B场景的AI Coding在过去半年发生了很大变化，甚至正在重塑整个计算机行业的工作方式。比如在硅谷，求职时会讨论入职后能拿到多少Token配额；也有人晒出自己一年在Cursor上消耗超过百亿Token的账单。

另外，在Agent场景下，越来越多人愿意为更强的模型付费。因为同样解决10个问题，更强的模型可能做对8到9个，弱一些的模型可能只能做对5到6个，而人工修正的时间成本很高。所以从这个角度看，模型的智能水平基本就等于生产力水平。随着大模型开始真正做事，（好的模型）生产效率还会持续提升。

黄伟：我印象最深的，一是集团的千问APP上已经可以点奶茶，二是OpenClaw的火热。这两件事说明，AI模型正在从认知智能走向行为智能。

我入行比较早，从2016年ResNet在图像识别上超过人类开始，我就一直觉得，AI技术是在沿着从感知、到认知、再到行为的路径持续演进。今天看到这两件事，更能说明这种转变正在发生。

而这种转变，对芯片从业者尤其重要。因为每一次智能形态的变化，都会带来底层硬件和算力需求的变化。比如从ResNet到BERT，算力需求是从单卡走向单机；到了大模型时代，又从单机走向集群。每一代技术，对底层硬件的需求都不一样。这种变化不仅是技术演进，也意味着新的产业机会。

主持人：刚才两位老师提到的不同现象，背后其实都指向同一个根源，就是底层推理性能的提升。没有推理性能，上层很多应用都跑不通。所以想请教两位，当前大家看到的推理范式是什么样的，未来又会怎么变化？

冯梦轲：前段时间GTC，黄仁勋把推理大致分成三个阶段：从Chat，到Thinking，再到Agent化的执行模式。国内发展更快，很多场景已经从单纯的Chat，直接走向融合Thinking、Agent和Coding的新模式，尤其AI Coding已经成为行业共识。

我觉得今年还有两个方向会迎来明显增长：一个是AI for Science，另一个是企业智能体。

AI for Science对应的是大模型最复杂的一类任务场景，而且相对可验证。前段时间有研究案例显示，研究人员把实验数据输入大模型后，大模型不仅提出了合理假设，还被后续实验验证，最终形成论文。这说明顶尖模型已经开始真正加速科学研究。

企业智能体也是类似逻辑，它和OpenClaw很像，核心都在于长期记忆和工具使用能力。但在To B场景里，企业智能体的想象空间更大，对生产效率的提升也更直接，所以我认为这会是今年的重要趋势。

在具体的推理范式方面，我觉得关键看两个维度：一是序列长度，二是模型在做什么。Chat场景下，每轮输入输出通常只有几百到一千Token；Thinking场景会进一步拉长到几千Token；到了Agent场景，模型不仅要对话，还要调用工具、执行任务、再做总结，整个过程可能在10分钟内处理超过百万Token。

这和过去的Chat模式已经完全不同。尤其在Agent模式下，上下文窗口被打满会非常常见，再加上长期记忆的引入，对推理技术提出了更高要求。不仅需要多级KV Cache等技术，也对底层算力带来更大挑战。因为序列越长，计算复杂度越高，推理的难度也会持续上升。

黄伟：大模型的演进，本质上是从认知智能走向行为智能，而现在只是开始。未来几年，像具身智能、Physical AI这些方向的持续升温，都说明行业在探索让AI真正影响物理世界。

站在芯片和底层硬件的角度看，我觉得未来推理范式的变化，至少会带来三方面要求。

第一，模型要更聪明。大家都希望模型一次能解决8到9个问题，而不是只解决5到6个。这背后既依赖模型算法演进，也依赖更充足的底层算力，让它算得更快、更好。尤其是面向具身智能，模型还需要更好地理解和处理物理世界。

第二，安全性会越来越重要。模型能力越强，大家对它的依赖越高，一旦出问题，影响也会更大。所以不仅模型本身要安全，底层算力和硬件也要具备更强的安全保障能力，确保模型始终运行在安全边界内。从这个角度看，很多安全问题最终都需要在硬件层面建立根能力。

第三，时效性会成为关键。尤其当AI开始影响物理世界时，很多任务不能无限等待，它必须在限定时间内完成决策和动作。所以未来推理算力不仅要强，还要快，要在更短时间内提供更高的Token Throughput。这会是非常明确的演进方向。

推理加速技术优先级，与软硬协同的优化方法

主持人：如果再往里看一层，就绕不开推理优化技术。想请教两位老师，目前主流的推理优化技术有哪些？如果排一个优先级，你们心中最重要的一项是什么？为什么？

黄伟：推理优化涉及很多层面，包括模型量化与压缩、底层算子优化、框架优化、内存效率优化，以及底层硬件和上层系统的协同优化。

如果从芯片视角看，我认为优先级最高的是模型量化和压缩。因为量化的本质，是不断逼近更低精度的极限。从FP32到FP16，再到FP8，甚至FP4，每下降一个精度等级，往往都意味着在同样硅面积下可以提供更高算力，同时内存容量和带宽需求也会明显下降。这样一来，推理成本会大幅降低，ROI非常直接，最终用户也最容易受益。

此外，AI技术迭代很快，变化不只发生在模型层，也包括框架、基础设施和芯片架构。因此，另一个非常关键的方向是从模型到芯片的协同优化。只有上下层联动，才能真正实现1+1大于2，把收益传递到最终应用端。

从现在的发展看，量化已经进展很快。两三年前行业还主要讨论FP16混合精度，现在FP8已经普遍应用，FP4也开始进入训练和推理。至于未来能否继续走到更低精度，比如2bit，技术上正在探索，但能否真正大规模落地，还需要继续观察。

冯梦轲：我和黄老师的判断比较一致：推理优化不是靠单点突破，而是一个多维协同的系统工程。

从业务场景看，主流的推理优化技术大致包括PD分离、并行策略、投机采样策略和KV Cache管理。不同场景下，重点也不一样。比如超长序列场景，需要组合流水线并行、Context并行和张量并行；超低延迟场景，需要扩大专家并行规模，用更多卡分摊计算压力；Agent场景则更依赖多级KV Cache缓存能力。所以我认为，推理优化的关键不在于单一技术，而在于根据业务场景灵活组合不同能力，同时配合软硬结合的工程优化。

但如果一定要选一个我最看重的方向，我会选和MoE相关的优化。过去一段时间里，很多关键的推理优化其实都和MoE有关，比如专家并行、面向MoE的新通信算子库，以及专家负载均衡。这些技术虽然是近一两年才快速发展起来的，但对整体推理性能的提升非常明显。

主持人：两位刚才都提到软硬协同优化，但这也带来一个长期问题：国内产业里硬件很多、模型也很多，端到端优化到底该怎么做？是用一套通用框架去适配多种模型，还是点对点地做定向优化？现在行业通常怎么做，哪种方式更优？

冯梦轲：我认为，推理基础设施要想做到极致性能，向上必须结合具体模型结构，向下必须结合具体硬件做深度优化。因为推理技术不是独立演进的，它始终是由新场景、新模型和新硬件共同驱动的。

先看场景。像Agent、Deep Research这类应用出现后，10分钟内处理数百万Token已经成为现实需求，这就带来了超长序列、超低延迟等新场景，也推动了流水线并行、大规模专家并行等部署方式的发展。

再看硬件。每一代新硬件出现，都需要重新做算子优化。尤其是国内新一代芯片开始支持64卡、128卡直连的超节点形态后，跨节点通信不再是主要瓶颈，模型并行策略也会随之变化。

最后是模型。最近一些新模型开始引入线性注意力、稀疏注意力等新结构，替代传统Self-Attention，这也要求我们在特定硬件上重新探索最优支持方式。

所以我的判断是，推理优化一定要围绕新场景、新硬件、新模型做深度适配，才能把性能真正释放出来。当然，底层推理特性本身仍然具有一定通用性。

黄伟：我觉得这不是一个非此即彼的问题，而是通用框架和定向优化需要长期并存。理想状态当然是，一套通用框架尽可能适配所有模型，这也是行业共同的目标。但在当前阶段，模型、框架、基础设施和芯片架构都在快速演进，要完全做到这一点并不现实。

从实际情况看，比较成熟的模型和技术经过多年打磨，通常已经能在通用框架上实现比较好的效果，基本可以开箱即用。

但对于新模型、新技术，尤其是在架构还不稳定、还在快速迭代的时候，如果不做定向优化，很难真正跑出应有的效果。

硬件也是一样。即便是同一家厂商，从A100到H100，再到新一代架构，底层设计都在变化，也不可能用同一套方法完全覆盖，还是需要针对具体硬件做适配。

所以我认为，通用框架解决的是“覆盖面”问题，让更多模型先跑起来；定向优化解决的是“性能上限”问题，只有针对具体场景、具体模型、具体硬件做深度优化，才能把硬件能力真正压出来，达到最优效果。现阶段，更现实的做法就是两条路并行推进。

主持人：前不久，阿里云在云栖大会上提到，推理加速效果已经提升到9.2倍，这是一个非常惊人的数字。这背后贡献最大的技术变量是什么？这个提升是怎么实现的？

冯梦轲：去年云栖大会上，我们在PPU芯片上，针对DeepSeek这类主流开源模型实现了9.2倍的性能提升。最近，这个数字已经进一步提升到13.1倍。

我觉得背后主要有三个关键因素。

第一，是深度参与社区。过去一年，推理加速发展非常快，我们也是通过持续参与社区演进，在PPU芯片上落地了关键的并行策略、投机采样等推理特性。

第二，是热点算子优化。针对INT8、GroupGEMM等热点算子，我们重点提升了访存效率和算子性能。

第三，是面向集群推理场景做能力创新，这一点也非常关键。

这里举两个例子。

一个是MoE模型的专家路由优化。MoE模型里有大量点对点通信，但在当前非对称互联拓扑下，并不是任意两张GPU都直连，整体带宽利用率会受影响。针对这个问题，我们动态分析Token路由路径，识别不同数据流中的公共部分，再通过环状通信做合并传输，最终在单算子层面实现了1.57倍的性能提升。

另一个是大EP部署模式下的优化。大EP最早由DeepSeek提出，去年也得到了广泛应用。它通过扩大集群规模提升性能，但同时也会带来更高的通信开销。针对这个问题，我们把传统“先传输、后量化”的模式重构为“先量化、后传输”，把整体传输数据量减半，最终在单算子层面实现了1.7倍的性能提升。

总体来看，这13.1倍的提升不是依靠单点突破，而是由推理特性优化、热点算子优化和集群能力创新共同实现的。在一些实际业务场景中，已经能够提供接近高端GPU卡的推理服务能力。

至于为什么过去通常采用“先传输、后量化”的顺序，主要还是沿用了训练场景下的技术惯性。训练对精度更敏感，所以通常会优先保证高精度计算，帮助loss更好收敛。但推理场景不完全一样，它更强调精度、性能和成本之间的平衡。因此在部分场景下，可以接受局部精度损失，换取整体性能提升，同时保证全局效果基本无损。

当然，这种方式也要分场景使用。比如文档处理类任务对精度不那么敏感，就更适合这种优化；但像AI Coding这类代码生成场景，对精度更敏感，就需要采用更稳妥的高精度方案。

推理加速技术的瓶颈与未来发展

主持人：我们都知道，推理加速和推理调优还有很大提升空间，尤其在国内更是如此。但如果继续往下走，当前最主要的技术瓶颈是什么？两位所在的产业链位置不同，看到的问题可能也不一样。

黄伟：这个话题业内讨论很多。对国内算力来说，比较明显的瓶颈首先还是硬件能力本身，与英伟达相比，在实际算力上仍有差距。其次是生态能力，以及AI算力向集群化发展后带来的互联通信问题。

现在无论训练还是推理，模型一旦进入大规模集群阶段，通信成本都在快速上升。像MoE这类模型，通信开销尤其突出。很多创新方案本质上不是消除了通信成本，而是通过计算与通信并行，把这部分代价尽量隐藏起来。这也说明，通信已经成为底层非常关键的瓶颈。

从芯片角度，我们能做的主要是继续在底层架构上创新，包括通信加速库、通信算子优化，以及模型并行过程中对内存使用和调度的优化。但真正要解决问题，仍然要靠从底到上的协同优化。

底层算力只能提供机制和接口，能不能把这些能力和具体业务、具体模型特征结合起来，真正发挥价值，单靠芯片厂商是做不到的。因为对业务的理解、对模型的理解，上下游天然存在差异，所以软硬件的垂直协同非常关键。

从这个意义上说，推理优化不可能是孤立完成的，只有越往上延伸、越做垂直整合，最终效果才会越好。

冯梦轲：从实际业务场景看，我对这个问题相对乐观。如果从推理端到端效果来看，国内芯片和国际先进水平的差距，其实没有想象中那么大。

现在新一代国内芯片，峰值算力基本已经能超过1PFLOPS，显存带宽也能做到3到4TB/s。即便和B200相比，在显存带宽和GPU互联带宽上，差距已经不到一倍；真正更大的差距主要体现在算力上。

但在推理场景里，算力差距的影响并没有那么大，因为整个推理过程中，大部分算子其实是访存密集型，真正明显受算力约束的，主要还是长序列场景。因为Attention的计算复杂度会随着序列长度快速上升。

不过，这一问题也在通过模型结构创新不断缓解。比如我们最近在PPU上支持了千问3.5的线性注意力机制，在Prefill阶段实现了2倍以上性能提升，在Decoder阶段实现了3倍以上提升。

所以我觉得，国内芯片在硬件上的差异，反而倒逼大家更多从推理加速、算子优化和模型结构优化上寻找突破。基于国内芯片，在云平台、推理系统和模型结构之间做联合优化，正在成为一条非常重要的技术路线。

换句话说，硬件短期内未必能一步追平，但软件和模型层面仍然有很大的优化空间，而且这些优化完全可以在业务效果基本不变的前提下，带来数倍的性能提升。

主持人：接下来想聊一个更务实的话题。我们发展算力，不是为了替代，而是为了用更好的算力支撑AI性能持续提升，推动整个产业更繁荣。要实现这个目标，关键是什么？当下最高优先级的事情是什么？

冯梦轲：我觉得最近GTC上黄仁勋提出的“Token工厂”这个概念很有代表性。它的核心逻辑是：在保证推理服务SLA的前提下，持续降低百万Token的推理成本。

从当前进展看，基于国内芯片，在常规序列场景下，已经能够提供接近高端GPU的推理服务水平；在模型能力上，也可以支撑千亿到万亿参数模型的在线服务；在集群规模上，已经能够稳定支撑千卡级推理集群；在交互体验上，也能提供每秒50个Token以上的低延迟响应。

但对“Token工厂”来说，最大的现实约束是延迟、并发和成本之间始终存在“不可能三角”。追求更低延迟和更高并发，必然需要更多资源；一味压低成本，又会影响响应速度和用户体验。这不仅是国产芯片面临的问题，也是所有推理系统共同面对的问题。

所以如果看大规模交付，我认为最关键的有三点：第一是成本，第二是稳定性，第三是硬件兼容性。稳定性方面，阿里专有云已经提供了从集群、实例到进程的三层容错机制，提升推理服务可靠性；兼容性方面，我们也在通过异构PD分离等方式，支持不同芯片的混合推理。

所以我认为，当下最高优先级的事情，就是围绕成本、稳定性和兼容性，把推理服务真正做成可规模化交付的基础设施。

黄伟：我基本认同刚才的判断。我从芯片视角补充一点：一款芯片要真正实现大规模商用，关键不只是性能本身，还取决于成本控制、迁移门槛和上下游协同。

以平头哥为例，我们之所以能够通过阿里云服务大量业务和客户，一个重要原因就是自研程度很高。不只是芯片架构本身，包括软件栈、通信总线协议、通信库等，很多关键部分都是自研的。这样做的好处，一方面是可以更有效地控制芯片和软件成本，另一方面也能把很多复杂性留在底层内部消化。

对业务方来说，更重要的是迁移成本被显著降低了。无论是迁移代价还是技术门槛，都不需要由业务侧承担太多，这样他们才能更容易接受和使用新的算力体系。

此外，另一个关键点还是协同。我们和通义实验室、阿里云在芯片、基础设施和模型层面做了纵向打通，把很多优化放在一体化体系里完成。这样不仅能提升整体效果，也能把底层硬件复杂度隐藏起来，让业务方尽可能沿用原有的使用方式。

所以在我看来，当下最高优先级的事情，首先是降低迁移成本，其次是做好纵向协同。只有这样，更好的算力才能真正被用起来，转化为产业发展的实际推动力。

主持人：我知道阿里最近有一个突破，就是AI Stack和千问3结合，实现了“1+1大于2”的效果。我很好奇，这个增益主要体现在哪儿？是单卡性能、集群调度，还是整条交互链路都有提升？

冯梦轲：这是专有云、平头哥和通义实验室联合优化的成果。我们在PPU芯片上发布了千问3 Pro专属模型，通过模型结构和推理技术的协同优化，在精度持平的前提下实现了性能翻倍。换句话说，在相同业务场景下，推理成本可以直接降低一半。

这里的核心思路是两点：让模型更匹配硬件，让推理技术更匹配模型。

在模型侧，我们做了精准瘦身，重新设计了模型结构和激活参数，使推理过程中的计算密度更适配硬件算力；同时进行了重新预训练和针对性强化学习，使模型在文本推理、代码生成和多模态任务上的效果与开源千问3基本持平，部分场景甚至更优。

在推理侧，我们围绕新的模型结构做了深度优化，包括调整Tensor分块、线程布局和流水线深度，提升访存效率和算子密度；同时针对MoE专家做了智能排布，按照调用量进行负载均衡，并对热点专家做冗余部署。

所以，这个“1+1大于2”的增益，不是单点提升，而是模型、推理、芯片和云平台协同优化后的整体结果。它体现的也不只是单卡或调度优化，而是整条推理链路效率的系统性提升。

主持人：最后想聊一个更有前瞻性的话题。GTC 2026上，黄仁勋提到，AI下一阶段的竞争将更多体现在推理效率，也就是系统级优化和生态能力的竞争。站在两位的角度看，未来一年推理加速还会有哪些变化

冯梦轲：我觉得有一个趋势非常确定：随着模型结构和芯片持续迭代，未来一年推理成本还有望再下降一个数量级。

从应用上看，除了企业智能体和AI for Science这两个方向之外，更大的变化在于，大模型正在成为新的社会生产基础设施。在这个基础设施之上，一方面，现有应用会被AI持续重构，比如购物、出行、企业ERP、视频剪辑等；另一方面，AI也会催生出全新的应用形态。

后者其实更难预测，但也更值得期待。我们正处在一个技术拐点上，随时可能出现新的突破，并迅速演变成行业共识，像AI Coding和OpenClaw就是典型例子。

所以我认为，未来一年推理加速不仅会继续降本，还会推动更多新场景和新应用落地。与此同时，基于国内芯片和国产云平台的AI基础设施，也会在这一轮发展中发挥越来越重要的作用，不仅能用好用，甚至逐步走向领先。

黄伟：我认为，至少在未来一年，AI推理市场一定会继续高速增长，Token消耗的速度已经很能说明问题了。需求传导到算力侧，最明确的信号就是降本。无论是通过软件优化进一步榨干硬件效率，还是推出新一代硬件，核心目标都会是提升推理性价比。

但从更长远的角度看，推理和训练有一个很大的不同：推理成本是和业务量直接相关的，业务增长越快，推理需求就越大。所以推理算力未来比拼的，不只是峰值算力有多高，而是能不能更高效、更智能地匹配业务场景。

换句话说，未来推理加速的重点，不只是算得更快，还要更懂业务、更贴近场景。最终，芯片和底层技术的演进，还是要服务于业务需求和场景变化。