阿里云牵头发布多模态大模型国际标准_热门资讯-阿里云政企业务

近日，国际电信联盟（ITU-T）正式批准发布由阿里云牵头制定的多模态大模型国际标准——ITU-TF.748.72《多模态生成式AI赋能的多视角转换系统需求与框架》。该标准首次系统性定义了基于多模态大模型的多视角转换（MEMVT）系统的整体架构、核心功能与应用要求，为行业提供统一技术规范，有效解决因视角遮挡、传感器缺失或信息碎片化导致的空间感知误差、目标丢失、预测不准等关键问题，加速多模态大模型在产业场景中的规模化落地。

破解复杂场景下的空间感知瓶颈

当前，智慧公路、自动化港口、高级别自动驾驶等场景高度依赖对物理空间的精准理解。传统多视角转换系统通常基于卷积神经网络（CNN），受限于传感覆盖范围窄、缺乏上下文推理能力，难以应对空间遮挡、密集目标、夜间低照度、传感器故障等复杂工况，导致感知结果不稳定、决策可靠性不足。

多模态大模型的出现为这一难题提供了全新路径。凭借其强大的跨模态融合与生成能力，MEMVT系统可同时处理图像、视频、激光雷达点云、毫米波雷达、高精地图等多种异构数据，通过海量训练学习目标的运动规律与空间语义，智能“补全”被遮挡区域、修复缺失信息，并生成高保真、高一致性的统一视角（如鸟瞰图BEV），显著提升空间感知的完整性、鲁棒性与准确性。

标准化框架：从基础能力到产业应用

ITU-TF.748.72标准提出，MEMVT系统由多视角源编码器、视角变换编码器和多任务解码器三大核心模块构成。在训练阶段，系统从通用、经验及反馈数据中提取特征，生成标准化的单视角Token，并映射为统一空间下的多视角表示；在推理阶段，则基于此实现两大层级能力：

基础能力：信息补偿、多视角融合与补全、多模态时序融合。

应用能力：目标跟踪与决策辅助、全景可视化、行为预测、目标分析增强、仿真场景库自动生成、实时车辆协同控制优化等。

此外，标准还明确了系统的评估指标、管理机制与服务接口要求，确保技术可验证、可运维、可扩展。

本次标准主要起草人之一，阿里云刘彦斌表示：“当前国内外公路运营商、港口企业、物流服务商及交通管理部门在建设多模态感知系统时，普遍面临架构不统一、功能边界模糊等问题。F.748.72作为全球首个聚焦多模态大模型空间感知的国际标准，不仅填补了技术空白，更为产业提供了‘建设指南’，将有力推动感知质量与应用效能的双重提升。”

应用展望：从交通基建到千行百业

随着该标准的发布与推广，MEMVT技术有望在更广泛领域释放价值：

智慧交通：构建无盲区路口感知系统，支撑车路云一体化协同决策，提升通行效率与主动安全水平；

自动化港口：实现集装箱全生命周期追踪，即使在堆叠遮挡场景下仍可精准定位与调度；

电力与能源巡检：通过视觉+点云融合，自动识别设备缺陷并计算人员安全距离，保障作业安全；

城市治理：融合多源感知数据，构建城市级数字孪生底座，支撑应急响应、人流疏导与设施管理；

医疗影像：跨模态融合CT、MRI、超声等数据，辅助医生进行三维病灶重建与手术规划；

工业制造：在柔性产线中实现零部件多角度精准识别与位姿估计，提升机器人抓取成功率。

未来，阿里云将持续联合产学研各方，推动MEMVT技术与标准在更多国家和行业落地，助力全球迈向“全域感知、AI决策、高效协同”的数智新阶段。