2026年开年不久的AI圈,似乎比去年更加热闹。
OpenClaw在短短几个月里,成为开发者圈几乎“人手一只”的本地助手,甚至引得部委和协会出手预警潜在安全隐患;各类AI Coding工具的评测和榜单铺天盖地,谁家开发者一年“烧掉”了多少亿Token,这种费钱的事儿也成了新的流量素材;不同于Qwen不断上新,DeepSeek持续发布新论文,V4的时间点被一再猜测;
这些看上去分散的事件,背后其实都在指向同一条主线:AI的焦点正转向推理。
模型越来越聪明,智能体越来越能干活、越来越会干活。但企业首先要面对的,是另一组更现实的问题:一次调用究竟消耗多少算力,复杂任务的延迟能不能降下来,系统成本会不会先于业务价值一起失控。
也正因此,引发行业关注的,已经不只是“能力还能提升多少”,而是“推理效率还能被重写到什么程度”;AI Coding被密集讨论,也不只是因为它能替开发者多写几行代码,而是因为所有人都越来越直观地意识到:模型能力每向前一步,推理成本都可能被同步放大。
而当OpenClaw和一众Agent框架把智能体从聊天窗口里放出来,大家对“推理”的期待更是被进一步放大。它不再只为一次问答调用,而是要支撑长时运行、工具调用、多轮决策和真实权限交互的完整链路。
于是,各种关于推理的矛盾开始集中显形:
一边是算力供给依然紧张,国内算力与顶级GPU之间的差距,逼着工程师在量化、并行、MoE、通信等环节不断“抠细节”;
一边是模型结构与工作流快速演化,从Chat到Thinking,再到能够长时间自主运行的Agent,单次任务对推理吞吐、上下文长度和系统稳定性的要求同时抬升;
另一边,监管与安全预警也在不断提醒行业:默认“全能”的智能体如果没有边界,不只是贵,还可能危险。
这也意味着,“推理范式”已经不再是一个单纯的工程优化问题,而是一条贯穿芯片、云平台、模型团队和业务场景的共同问题链:有限的算力究竟应该优先分配给哪里?是让模型想得更久一点,还是让它更快把事情做完?是继续追求极致的单卡性能,还是在成本、时延与安全之间重建平衡?
带着这些问题,我们请来了两位站在不同层级的一线从业者——长期在云端推理系统里“抠性能”的阿里云专有云推理加速负责人冯梦轲,以及在芯片与算力架构一侧“抠极限”的平头哥半导体产品总监黄伟。
接下来的对话,将从这些热点事件切入,沿着推理范式、AI Coding、企业智能体与国产算力的多重拉扯,去拆解一个正在决定行业走向的核心问题:当推理性能与推理成本成为新一轮AI竞赛的主战场,整个产业会被推向哪里。
推理范式现状及变化
主持人:每年年初,AI行业都会有不少重要变化,今年也不例外。虽然没有去年的DeepSeek发布,但今年有OpenClaw以及一系列相关进展。两位今年印象最深的一件事是什么?
冯梦轲:我感受最深的是,推理加速技术带来的“推背感”很强。从To B场景的AI Coding,到To C场景的OpenClaw,它们都在迅速成为行业共识,并得到广泛应用。这里面一个关键变化是,大模型正在从“对话”阶段走向“做事”阶段。
去年年初,像DeepSeek R1的出现,包括从GPT-5到GPT-5.1,Chat模式下的变化更多体现在对话体验和语气个性化上,用户体感并没有那么明显。相比之下,To B场景的AI Coding在过去半年发生了很大变化,甚至正在重塑整个计算机行业的工作方式。比如在硅谷,求职时会讨论入职后能拿到多少Token配额;也有人晒出自己一年在Cursor上消耗超过百亿Token的账单。
另外,在Agent场景下,越来越多人愿意为更强的模型付费。因为同样解决10个问题,更强的模型可能做对8到9个,弱一些的模型可能只能做对5到6个,而人工修正的时间成本很高。所以从这个角度看,模型的智能水平基本就等于生产力水平。随着大模型开始真正做事,(好的模型)生产效率还会持续提升。
黄伟:我印象最深的,一是集团的千问APP上已经可以点奶茶,二是OpenClaw的火热。这两件事说明,AI模型正在从认知智能走向行为智能。
我入行比较早,从2016年ResNet在图像识别上超过人类开始,我就一直觉得,AI技术是在沿着从感知、到认知、再到行为的路径持续演进。今天看到这两件事,更能说明这种转变正在发生。
而这种转变,对芯片从业者尤其重要。因为每一次智能形态的变化,都会带来底层硬件和算力需求的变化。比如从ResNet到BERT,算力需求是从单卡走向单机;到了大模型时代,又从单机走向集群。每一代技术,对底层硬件的需求都不一样。这种变化不仅是技术演进,也意味着新的产业机会。
主持人:刚才两位老师提到的不同现象,背后其实都指向同一个根源,就是底层推理性能的提升。没有推理性能,上层很多应用都跑不通。所以想请教两位,当前大家看到的推理范式是什么样的,未来又会怎么变化?
冯梦轲:前段时间GTC,黄仁勋把推理大致分成三个阶段:从Chat,到Thinking,再到Agent化的执行模式。国内发展更快,很多场景已经从单纯的Chat,直接走向融合Thinking、Agent和Coding的新模式,尤其AI Coding已经成为行业共识。
我觉得今年还有两个方向会迎来明显增长:一个是AI for Science,另一个是企业智能体。
AI for Science对应的是大模型最复杂的一类任务场景,而且相对可验证。前段时间有研究案例显示,研究人员把实验数据输入大模型后,大模型不仅提出了合理假设,还被后续实验验证,最终形成论文。这说明顶尖模型已经开始真正加速科学研究。
企业智能体也是类似逻辑,它和OpenClaw很像,核心都在于长期记忆和工具使用能力。但在To B场景里,企业智能体的想象空间更大,对生产效率的提升也更直接,所以我认为这会是今年的重要趋势。
在具体的推理范式方面,我觉得关键看两个维度:一是序列长度,二是模型在做什么。Chat场景下,每轮输入输出通常只有几百到一千Token;Thinking场景会进一步拉长到几千Token;到了Agent场景,模型不仅要对话,还要调用工具、执行任务、再做总结,整个过程可能在10分钟内处理超过百万Token。
这和过去的Chat模式已经完全不同。尤其在Agent模式下,上下文窗口被打满会非常常见,再加上长期记忆的引入,对推理技术提出了更高要求。不仅需要多级KV Cache等技术,也对底层算力带来更大挑战。因为序列越长,计算复杂度越高,推理的难度也会持续上升。
黄伟:大模型的演进,本质上是从认知智能走向行为智能,而现在只是开始。未来几年,像具身智能、Physical AI这些方向的持续升温,都说明行业在探索让AI真正影响物理世界。
站在芯片和底层硬件的角度看,我觉得未来推理范式的变化,至少会带来三方面要求。
第一,模型要更聪明。大家都希望模型一次能解决8到9个问题,而不是只解决5到6个。这背后既依赖模型算法演进,也依赖更充足的底层算力,让它算得更快、更好。尤其是面向具身智能,模型还需要更好地理解和处理物理世界。
第二,安全性会越来越重要。模型能力越强,大家对它的依赖越高,一旦出问题,影响也会更大。所以不仅模型本身要安全,底层算力和硬件也要具备更强的安全保障能力,确保模型始终运行在安全边界内。从这个角度看,很多安全问题最终都需要在硬件层面建立根能力。
第三,时效性会成为关键。尤其当AI开始影响物理世界时,很多任务不能无限等待,它必须在限定时间内完成决策和动作。所以未来推理算力不仅要强,还要快,要在更短时间内提供更高的Token Throughput。这会是非常明确的演进方向。
推理加速技术优先级,与软硬协同的优化方法
主持人:如果再往里看一层,就绕不开推理优化技术。想请教两位老师,目前主流的推理优化技术有哪些?如果排一个优先级,你们心中最重要的一项是什么?为什么?
黄伟:推理优化涉及很多层面,包括模型量化与压缩、底层算子优化、框架优化、内存效率优化,以及底层硬件和上层系统的协同优化。
如果从芯片视角看,我认为优先级最高的是模型量化和压缩。因为量化的本质,是不断逼近更低精度的极限。从FP32到FP16,再到FP8,甚至FP4,每下降一个精度等级,往往都意味着在同样硅面积下可以提供更高算力,同时内存容量和带宽需求也会明显下降。这样一来,推理成本会大幅降低,ROI非常直接,最终用户也最容易受益。
此外,AI技术迭代很快,变化不只发生在模型层,也包括框架、基础设施和芯片架构。因此,另一个非常关键的方向是从模型到芯片的协同优化。只有上下层联动,才能真正实现1+1大于2,把收益传递到最终应用端。
从现在的发展看,量化已经进展很快。两三年前行业还主要讨论FP16混合精度,现在FP8已经普遍应用,FP4也开始进入训练和推理。至于未来能否继续走到更低精度,比如2bit,技术上正在探索,但能否真正大规模落地,还需要继续观察。
冯梦轲:我和黄老师的判断比较一致:推理优化不是靠单点突破,而是一个多维协同的系统工程。
从业务场景看,主流的推理优化技术大致包括PD分离、并行策略、投机采样策略和KV Cache管理。不同场景下,重点也不一样。比如超长序列场景,需要组合流水线并行、Context并行和张量并行;超低延迟场景,需要扩大专家并行规模,用更多卡分摊计算压力;Agent场景则更依赖多级KV Cache缓存能力。所以我认为,推理优化的关键不在于单一技术,而在于根据业务场景灵活组合不同能力,同时配合软硬结合的工程优化。
但如果一定要选一个我最看重的方向,我会选和MoE相关的优化。过去一段时间里,很多关键的推理优化其实都和MoE有关,比如专家并行、面向MoE的新通信算子库,以及专家负载均衡。这些技术虽然是近一两年才快速发展起来的,但对整体推理性能的提升非常明显。
主持人:两位刚才都提到软硬协同优化,但这也带来一个长期问题:国内产业里硬件很多、模型也很多,端到端优化到底该怎么做?是用一套通用框架去适配多种模型,还是点对点地做定向优化?现在行业通常怎么做,哪种方式更优?
冯梦轲:我认为,推理基础设施要想做到极致性能,向上必须结合具体模型结构,向下必须结合具体硬件做深度优化。因为推理技术不是独立演进的,它始终是由新场景、新模型和新硬件共同驱动的。
先看场景。像Agent、Deep Research这类应用出现后,10分钟内处理数百万Token已经成为现实需求,这就带来了超长序列、超低延迟等新场景,也推动了流水线并行、大规模专家并行等部署方式的发展。
再看硬件。每一代新硬件出现,都需要重新做算子优化。尤其是国内新一代芯片开始支持64卡、128卡直连的超节点形态后,跨节点通信不再是主要瓶颈,模型并行策略也会随之变化。
最后是模型。最近一些新模型开始引入线性注意力、稀疏注意力等新结构,替代传统Self-Attention,这也要求我们在特定硬件上重新探索最优支持方式。
所以我的判断是,推理优化一定要围绕新场景、新硬件、新模型做深度适配,才能把性能真正释放出来。当然,底层推理特性本身仍然具有一定通用性。
黄伟:我觉得这不是一个非此即彼的问题,而是通用框架和定向优化需要长期并存。理想状态当然是,一套通用框架尽可能适配所有模型,这也是行业共同的目标。但在当前阶段,模型、框架、基础设施和芯片架构都在快速演进,要完全做到这一点并不现实。
从实际情况看,比较成熟的模型和技术经过多年打磨,通常已经能在通用框架上实现比较好的效果,基本可以开箱即用。
但对于新模型、新技术,尤其是在架构还不稳定、还在快速迭代的时候,如果不做定向优化,很难真正跑出应有的效果。
硬件也是一样。即便是同一家厂商,从A100到H100,再到新一代架构,底层设计都在变化,也不可能用同一套方法完全覆盖,还是需要针对具体硬件做适配。
所以我认为,通用框架解决的是“覆盖面”问题,让更多模型先跑起来;定向优化解决的是“性能上限”问题,只有针对具体场景、具体模型、具体硬件做深度优化,才能把硬件能力真正压出来,达到最优效果。现阶段,更现实的做法就是两条路并行推进。
主持人:前不久,阿里云在云栖大会上提到,推理加速效果已经提升到9.2倍,这是一个非常惊人的数字。这背后贡献最大的技术变量是什么?这个提升是怎么实现的?
冯梦轲:去年云栖大会上,我们在PPU芯片上,针对DeepSeek这类主流开源模型实现了9.2倍的性能提升。最近,这个数字已经进一步提升到13.1倍。
我觉得背后主要有三个关键因素。
第一,是深度参与社区。过去一年,推理加速发展非常快,我们也是通过持续参与社区演进,在PPU芯片上落地了关键的并行策略、投机采样等推理特性。
第二,是热点算子优化。针对INT8、GroupGEMM等热点算子,我们重点提升了访存效率和算子性能。
第三,是面向集群推理场景做能力创新,这一点也非常关键。
这里举两个例子。
一个是MoE模型的专家路由优化。MoE模型里有大量点对点通信,但在当前非对称互联拓扑下,并不是任意两张GPU都直连,整体带宽利用率会受影响。针对这个问题,我们动态分析Token路由路径,识别不同数据流中的公共部分,再通过环状通信做合并传输,最终在单算子层面实现了1.57倍的性能提升。
另一个是大EP部署模式下的优化。大EP最早由DeepSeek提出,去年也得到了广泛应用。它通过扩大集群规模提升性能,但同时也会带来更高的通信开销。针对这个问题,我们把传统“先传输、后量化”的模式重构为“先量化、后传输”,把整体传输数据量减半,最终在单算子层面实现了1.7倍的性能提升。
总体来看,这13.1倍的提升不是依靠单点突破,而是由推理特性优化、热点算子优化和集群能力创新共同实现的。在一些实际业务场景中,已经能够提供接近高端GPU卡的推理服务能力。
至于为什么过去通常采用“先传输、后量化”的顺序,主要还是沿用了训练场景下的技术惯性。训练对精度更敏感,所以通常会优先保证高精度计算,帮助loss更好收敛。但推理场景不完全一样,它更强调精度、性能和成本之间的平衡。因此在部分场景下,可以接受局部精度损失,换取整体性能提升,同时保证全局效果基本无损。
当然,这种方式也要分场景使用。比如文档处理类任务对精度不那么敏感,就更适合这种优化;但像AI Coding这类代码生成场景,对精度更敏感,就需要采用更稳妥的高精度方案。
推理加速技术的瓶颈与未来发展
主持人:我们都知道,推理加速和推理调优还有很大提升空间,尤其在国内更是如此。但如果继续往下走,当前最主要的技术瓶颈是什么?两位所在的产业链位置不同,看到的问题可能也不一样。
黄伟:这个话题业内讨论很多。对国内算力来说,比较明显的瓶颈首先还是硬件能力本身,与英伟达相比,在实际算力上仍有差距。其次是生态能力,以及AI算力向集群化发展后带来的互联通信问题。
现在无论训练还是推理,模型一旦进入大规模集群阶段,通信成本都在快速上升。像MoE这类模型,通信开销尤其突出。很多创新方案本质上不是消除了通信成本,而是通过计算与通信并行,把这部分代价尽量隐藏起来。这也说明,通信已经成为底层非常关键的瓶颈。
从芯片角度,我们能做的主要是继续在底层架构上创新,包括通信加速库、通信算子优化,以及模型并行过程中对内存使用和调度的优化。但真正要解决问题,仍然要靠从底到上的协同优化。
底层算力只能提供机制和接口,能不能把这些能力和具体业务、具体模型特征结合起来,真正发挥价值,单靠芯片厂商是做不到的。因为对业务的理解、对模型的理解,上下游天然存在差异,所以软硬件的垂直协同非常关键。
从这个意义上说,推理优化不可能是孤立完成的,只有越往上延伸、越做垂直整合,最终效果才会越好。
冯梦轲:从实际业务场景看,我对这个问题相对乐观。如果从推理端到端效果来看,国内芯片和国际先进水平的差距,其实没有想象中那么大。
现在新一代国内芯片,峰值算力基本已经能超过1PFLOPS,显存带宽也能做到3到4TB/s。即便和B200相比,在显存带宽和GPU互联带宽上,差距已经不到一倍;真正更大的差距主要体现在算力上。
但在推理场景里,算力差距的影响并没有那么大,因为整个推理过程中,大部分算子其实是访存密集型,真正明显受算力约束的,主要还是长序列场景。因为Attention的计算复杂度会随着序列长度快速上升。
不过,这一问题也在通过模型结构创新不断缓解。比如我们最近在PPU上支持了千问3.5的线性注意力机制,在Prefill阶段实现了2倍以上性能提升,在Decoder阶段实现了3倍以上提升。
所以我觉得,国内芯片在硬件上的差异,反而倒逼大家更多从推理加速、算子优化和模型结构优化上寻找突破。基于国内芯片,在云平台、推理系统和模型结构之间做联合优化,正在成为一条非常重要的技术路线。
换句话说,硬件短期内未必能一步追平,但软件和模型层面仍然有很大的优化空间,而且这些优化完全可以在业务效果基本不变的前提下,带来数倍的性能提升。
主持人:接下来想聊一个更务实的话题。我们发展算力,不是为了替代,而是为了用更好的算力支撑AI性能持续提升,推动整个产业更繁荣。要实现这个目标,关键是什么?当下最高优先级的事情是什么?
冯梦轲:我觉得最近GTC上黄仁勋提出的“Token工厂”这个概念很有代表性。它的核心逻辑是:在保证推理服务SLA的前提下,持续降低百万Token的推理成本。
从当前进展看,基于国内芯片,在常规序列场景下,已经能够提供接近高端GPU的推理服务水平;在模型能力上,也可以支撑千亿到万亿参数模型的在线服务;在集群规模上,已经能够稳定支撑千卡级推理集群;在交互体验上,也能提供每秒50个Token以上的低延迟响应。
但对“Token工厂”来说,最大的现实约束是延迟、并发和成本之间始终存在“不可能三角”。追求更低延迟和更高并发,必然需要更多资源;一味压低成本,又会影响响应速度和用户体验。这不仅是国产芯片面临的问题,也是所有推理系统共同面对的问题。
所以如果看大规模交付,我认为最关键的有三点:第一是成本,第二是稳定性,第三是硬件兼容性。稳定性方面,阿里专有云已经提供了从集群、实例到进程的三层容错机制,提升推理服务可靠性;兼容性方面,我们也在通过异构PD分离等方式,支持不同芯片的混合推理。
所以我认为,当下最高优先级的事情,就是围绕成本、稳定性和兼容性,把推理服务真正做成可规模化交付的基础设施。
黄伟:我基本认同刚才的判断。我从芯片视角补充一点:一款芯片要真正实现大规模商用,关键不只是性能本身,还取决于成本控制、迁移门槛和上下游协同。
以平头哥为例,我们之所以能够通过阿里云服务大量业务和客户,一个重要原因就是自研程度很高。不只是芯片架构本身,包括软件栈、通信总线协议、通信库等,很多关键部分都是自研的。这样做的好处,一方面是可以更有效地控制芯片和软件成本,另一方面也能把很多复杂性留在底层内部消化。
对业务方来说,更重要的是迁移成本被显著降低了。无论是迁移代价还是技术门槛,都不需要由业务侧承担太多,这样他们才能更容易接受和使用新的算力体系。
此外,另一个关键点还是协同。我们和通义实验室、阿里云在芯片、基础设施和模型层面做了纵向打通,把很多优化放在一体化体系里完成。这样不仅能提升整体效果,也能把底层硬件复杂度隐藏起来,让业务方尽可能沿用原有的使用方式。
所以在我看来,当下最高优先级的事情,首先是降低迁移成本,其次是做好纵向协同。只有这样,更好的算力才能真正被用起来,转化为产业发展的实际推动力。
主持人:我知道阿里最近有一个突破,就是AI Stack和千问3结合,实现了“1+1大于2”的效果。我很好奇,这个增益主要体现在哪儿?是单卡性能、集群调度,还是整条交互链路都有提升?
冯梦轲:这是专有云、平头哥和通义实验室联合优化的成果。我们在PPU芯片上发布了千问3 Pro专属模型,通过模型结构和推理技术的协同优化,在精度持平的前提下实现了性能翻倍。换句话说,在相同业务场景下,推理成本可以直接降低一半。
这里的核心思路是两点:让模型更匹配硬件,让推理技术更匹配模型。
在模型侧,我们做了精准瘦身,重新设计了模型结构和激活参数,使推理过程中的计算密度更适配硬件算力;同时进行了重新预训练和针对性强化学习,使模型在文本推理、代码生成和多模态任务上的效果与开源千问3基本持平,部分场景甚至更优。
在推理侧,我们围绕新的模型结构做了深度优化,包括调整Tensor分块、线程布局和流水线深度,提升访存效率和算子密度;同时针对MoE专家做了智能排布,按照调用量进行负载均衡,并对热点专家做冗余部署。
所以,这个“1+1大于2”的增益,不是单点提升,而是模型、推理、芯片和云平台协同优化后的整体结果。它体现的也不只是单卡或调度优化,而是整条推理链路效率的系统性提升。
主持人:最后想聊一个更有前瞻性的话题。GTC 2026上,黄仁勋提到,AI下一阶段的竞争将更多体现在推理效率,也就是系统级优化和生态能力的竞争。站在两位的角度看,未来一年推理加速还会有哪些变化
冯梦轲:我觉得有一个趋势非常确定:随着模型结构和芯片持续迭代,未来一年推理成本还有望再下降一个数量级。
从应用上看,除了企业智能体和AI for Science这两个方向之外,更大的变化在于,大模型正在成为新的社会生产基础设施。在这个基础设施之上,一方面,现有应用会被AI持续重构,比如购物、出行、企业ERP、视频剪辑等;另一方面,AI也会催生出全新的应用形态。
后者其实更难预测,但也更值得期待。我们正处在一个技术拐点上,随时可能出现新的突破,并迅速演变成行业共识,像AI Coding和OpenClaw就是典型例子。
所以我认为,未来一年推理加速不仅会继续降本,还会推动更多新场景和新应用落地。与此同时,基于国内芯片和国产云平台的AI基础设施,也会在这一轮发展中发挥越来越重要的作用,不仅能用好用,甚至逐步走向领先。
黄伟:我认为,至少在未来一年,AI推理市场一定会继续高速增长,Token消耗的速度已经很能说明问题了。需求传导到算力侧,最明确的信号就是降本。无论是通过软件优化进一步榨干硬件效率,还是推出新一代硬件,核心目标都会是提升推理性价比。
但从更长远的角度看,推理和训练有一个很大的不同:推理成本是和业务量直接相关的,业务增长越快,推理需求就越大。所以推理算力未来比拼的,不只是峰值算力有多高,而是能不能更高效、更智能地匹配业务场景。
换句话说,未来推理加速的重点,不只是算得更快,还要更懂业务、更贴近场景。最终,芯片和底层技术的演进,还是要服务于业务需求和场景变化。