近日,国际顶级学术会议EMNLP 2025揭晓论文评选结果,阿里云自研多模态智能体技术成果《AirRAG: Autonomous Strategic Planning and Reasoning Steer Retrieval Augmented Generation》和《ChartM³: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension》,凭借创新性和实用性被长文收录。两项研究主要面向业务中的多模态智能体的自动规划以及复杂图表理解,为行业应用落地注入强劲驱动力。
关于EMNLP:EMNLP(Empirical Methods in Natural Language Processing)是自然语言处理领域公认的国际顶级学术会议之一,聚焦于自然语言处理与计算语言学等核心方向。本年度EMNLP将于中国苏州举办,共收到8174篇有效投稿,主会议录用率为22.16%,Findings录用率为17.35%。
技术成果1:AirRAG
大模型推理和自动规划
委员会评语:“AirRAG通过创新引入蒙特卡洛搜索树扩展解空间,高效推理动作自动激活内生推理力、采用模块化框架以实现各类推理动作的灵活组合扩展,在众多任务上展现出显著的效果提升,充分证明了其在实际应用中的价值。”
研究背景:破解大模型在复杂检索与推理场景下的瓶颈
随着大语言模型(LLMs)在知识问答与智能检索中的广泛应用,其推理与决策能力持续提升,但在面对多跳推理、跨模态异构数据和复杂问题拆解的真实场景时,仍面临自主规划与深度推理的挑战。
传统检索增强生成(RAG)方法多依赖链式、单路径推理,难以拓展解空间,影响准确率与推理效率。尽管业界尝试通过迭代优化、反思推理等手段改进,但仍存在三大挑战:推理路径单一、资源分配不均和低效、过程不可控不透明,制约了RAG技术在复杂场景中的产业化与应用。
技术突破:AirRAG的自动规划与树状推理创新框架
AirRAG方案针对复杂任务中推理能力不足的问题,提出具备自主规划与多路径扩展的新型RAG范式,核心贡献如下:
1、首创以“五大类人推理动作(系统分析、直接作答、检索作答、查询转化、总结归纳)”为基础的推理空间设计,实现复杂问题的可控可自定义的深层拆解,极大激发大模型的推理规划能力。
2、引入蒙特卡洛树搜索(MCTS)实现多分支推理,突破单路径局限,拓展多元解空间,同时结合自洽性校验、多路径投票与奖励机制,增强推理鲁棒性与答案可靠性。
3、推理资源智能分配与可扩展架构,效率与性能兼顾,轻松集成多模态业务,灵活适配不同模态复杂业务场景,适配Qwen、Llama等主流模型。
领先的效果
复杂推理性能显著提升和领先:在HotpotQA、MuSiQue、2WikiMultiHopQA等多跳问答任务中,相比IterDRAG、Search-o1等SOTA方法准确率提升超 8.5%。依托MCTS树状推理与自洽性校验,有效避免单一路径依赖和推理循环,持续优化端到端效果。
作为一个多阶段、多维度、多步推理的图表理解数据合成方法,通过结合检索增强生成(RAG)和思维链(CoT)策略,创新性地重构了图表视觉推理数据的构建范式,充分展示了小型模型也能达到与大模型相当的推理能力和跨域泛化性。
技术成果 2. ChartM^3
多模态图表理解
委员会评语:“ChartM^3 作为一个多阶段、多维度、多步推理的图表理解数据合成方法,通过结合检索增强生成(RAG)和思维链(CoT)策略,创新性地重构了图表视觉推理数据的构建范式,充分展示了小型模型也能达到与大模型相当的推理能力和跨域泛化性。”
研究背景:增强多模态模型在复杂图表理解领域的能力短板
多模态大模型在自然图像理解方面进展显著,但在处理文本密集的图表图像时仍面临挑战。图表结构复杂,包含标题、图例、坐标轴等多种元素,要求模型具备密集视觉分析、层次关系分析和意图理解能力。
尽管模型在ChartQA等基准测试中表现良好,但实际应用效果不佳,主要因现实图表更加复杂。当前数据构造存在三大瓶颈:图表类型和元素复杂度受限、问题设计简单复杂度不足、缺乏可解释性。这些问题源于传统数据构建方法在准确性、复杂度与成本之间的难以平衡。
技术突破:ChartM³多阶段、代码驱动的数据合成框架
ChartM³框架,通过构造多样化模版库检索增强、多阶段代码驱动和多模型联合质量评估机制,显著提升了图表数据合成的专业性、多样性和可靠性,核心贡献如下:
1、专业模板库构建与检索增强:融合大模型样式增强与图表重绘技术,并结合检索增强生成动态匹配最优模板,构建覆盖62种图表类型、60余个领域的多层次模板库,实现专业且多样化的图表生成。
2、长思考链驱动多阶段代码生成:将数据合成分解为“关键问题→数据代码→可视化代码→题目扩充→推理代码与解答”四段式流程,结合长链思维(CoT),提升合成数据的准确性与可解释性。
3、大小模型联合质量评估:采用 2B/72B 大小模型协同评估机制过滤低质量样本,以错误次数衡量题目难度,筛选出“有挑战、可学习”的高质量训练数据。
领先的效果
高质量思维链数据的监督微调带来跨越式提升:采用ChartM³构造的CoT数据进行监督微调,在评测集上Qwen2.5-VL-3B和LLaVA-OV-7B分别从45%、37.12%提升至62.88%、64.95%,达到了72B尺寸规模相当的性能,另外实验表明跨域迁移泛化能力。
应用落地:多场景大规模实证
赋能行业智能升级
AirRAG和ChartM³作为多模态智能体核心模块,已广泛落地于40多个典型业务场景,包括文档问答、数据库检索、视频内容分析等多模态、多数据源融合等。在政务城市治理、金融风控、临床辅助分析、媒体知识抽取等高复杂度业务场景极大提升业务处理速度和智能化水平,人力投入成本下降90%。
AirRAG和ChartM³已集成于阿里云百炼专属版AI Stack一体机,正加速赋能各行各业的复杂多模态智能体等创新应用,助力大模型在业务智能落地中实现“从可用到好用、从分析到决策”的跨越升级。