近日,国际电信联盟(ITU-T)正式批准发布由阿里云牵头制定的多模态大模型国际标准——ITU-TF.748.72《多模态生成式AI赋能的多视角转换系统需求与框架》。该标准首次系统性定义了基于多模态大模型的多视角转换(MEMVT)系统的整体架构、核心功能与应用要求,为行业提供统一技术规范,有效解决因视角遮挡、传感器缺失或信息碎片化导致的空间感知误差、目标丢失、预测不准等关键问题,加速多模态大模型在产业场景中的规模化落地。
破解复杂场景下的空间感知瓶颈
当前,智慧公路、自动化港口、高级别自动驾驶等场景高度依赖对物理空间的精准理解。传统多视角转换系统通常基于卷积神经网络(CNN),受限于传感覆盖范围窄、缺乏上下文推理能力,难以应对空间遮挡、密集目标、夜间低照度、传感器故障等复杂工况,导致感知结果不稳定、决策可靠性不足。
多模态大模型的出现为这一难题提供了全新路径。凭借其强大的跨模态融合与生成能力,MEMVT系统可同时处理图像、视频、激光雷达点云、毫米波雷达、高精地图等多种异构数据,通过海量训练学习目标的运动规律与空间语义,智能“补全”被遮挡区域、修复缺失信息,并生成高保真、高一致性的统一视角(如鸟瞰图BEV),显著提升空间感知的完整性、鲁棒性与准确性。

标准化框架:从基础能力到产业应用

ITU-TF.748.72标准提出,MEMVT系统由多视角源编码器、视角变换编码器和多任务解码器三大核心模块构成。在训练阶段,系统从通用、经验及反馈数据中提取特征,生成标准化的单视角Token,并映射为统一空间下的多视角表示;在推理阶段,则基于此实现两大层级能力:
基础能力:信息补偿、多视角融合与补全、多模态时序融合。
应用能力:目标跟踪与决策辅助、全景可视化、行为预测、目标分析增强、仿真场景库自动生成、实时车辆协同控制优化等。
此外,标准还明确了系统的评估指标、管理机制与服务接口要求,确保技术可验证、可运维、可扩展。
应用展望:从交通基建到千行百业

随着该标准的发布与推广,MEMVT技术有望在更广泛领域释放价值:
智慧交通 :构建无盲区路口感知系统,支撑车路云一体化协同决策,提升通行效率与主动安全水平;
自动化港口:实现集装箱全生命周期追踪,即使在堆叠遮挡场景下仍可精准定位与调度;
电力与能源巡检:通过视觉+点云融合,自动识别设备缺陷并计算人员安全距离,保障作业安全;
城市治理:融合多源感知数据,构建城市级数字孪生底座,支撑应急响应、人流疏导与设施管理;
医疗影像:跨模态融合CT、MRI、超声等数据,辅助医生进行三维病灶重建与手术规划;
工业制造:在柔性产线中实现零部件多角度精准识别与位姿估计,提升机器人抓取成功率。
未来,阿里云将持续联合产学研各方,推动MEMVT技术与标准在更多国家和行业落地,助力全球迈向“全域感知、AI决策、高效协同”的数智新阶段。