中信建投 | 多模态大模型首次实现像素级推理,UniPixel发布

本文转载自微信公众号:中信建投证券研究
图片
|于芳博 辛侠平
UniPixel 是香港理工大学与腾讯 PCG ARC 实验室联合研发的多模态 AI 模型,该模型首次实现视频理解、像素级分割与区域推理的统一,支持点、框、掩码三类视觉提示交互,核心创新在于 “对象记忆银行” 机制,可动态存储目标时空特征,实现多轮对话的上下文感知。基于 Qwen2.5-VL 构建,通过多模态提示编码器、SAM 2.1 掩码解码器及三阶段渐进训练,3B 参数版本在 ReVOS、MeViS 等 10 个基准测试中刷新 SOTA,性能超越 72B 传统模型。该模型已开源,在医疗影像分析、教育可视化、内容创作等领域具实用价值,推动多模态 AI 从 “全局通感” 迈向 “细粒度精准交互” 的新范式。
图片
来自香港理工大学和腾讯ARC Lab的研究团队提出了首个统一的像素级多模态大模型——UniPixel。只需UniPixel一个模型,就能完成目标指代(Referring)、像素级分割(Segmentation)与区域推理(Reasoning)三大任务,兼具灵活性、精确性与可扩展性。该模型首次实现了视频理解与精确物体标注的统一,通过创新的对象记忆机制和多模态提示编码,支持用户通过点击、框选等自然交互方式获取细粒度视觉信息,并生成时空对齐的分割掩码与语言回答。
图片
UniPixel 基于 Qwen2.5-VL 模型构建,支持图像与视频输入,并整合三大核心模块实现端到端多任务处理:
多模态提示编码器支持点、框、掩码三种视觉提示的统一编码,将空间坐标、时间位置及提示类型融合为高维向量,并与视觉 Token 对齐。例如,用户在视频第 5 秒点击某物体,系统可自动解析该点的时空信息并生成特征向量。对象记忆机制(Object Memory Bank)动态存储用户指定的目标区域,通过 “记忆预填充” 和 “记忆注入” 机制实现多轮交互中的上下文感知。当用户首次框选目标时,系统生成唯一标识符并记录其时空特征;后续对话中只需引用该标识符,即可快速激活对应区域的特征进行推理。SAM 2.1 掩码解码器采用 Segment Anything Model 2.1 作为底层分割工具,结合时空信息生成高精度掩码。在视频场景中,该模块可自动处理物体运动与变形,确保多帧标注的一致性。
图片
为实现最大程度的自由交互,UniPixel设计了Prompt Encoder模块对三类视觉提示进行统一编码。无论是点、框,还是掩码,均可被统一编码为同一空间中的高维向量。这一编码方式融合了空间坐标、时间位置、提示类型等信息,并借助编码投影层与视觉Token进行对齐。
在训练流程上,UniPixel采用了模块化、分阶段的训练策略。基础阶段:通过 85 万区域描述数据学习视觉提示理解,如点击与物体的对应关系;协同阶段:利用 8.7 万指代表达分割数据训练语言与分割的对齐;综合阶段:在多任务数据上联合优化,涵盖物体指代、视频问答等复杂场景。这些数据为模型提供了统一、多样的训练环境,提升了其在不同任务设置下的适应能力。
图片
仅 3B 参数的 UniPixel-3B 在多项任务中超越 72B 传统模型,基准测试全面领先。分割任务:在 ReVOS(62.1 J&F)、MeViS(68.3 J&F)等数据集上超越现有模型,尤其在视频动态物体分割中优势显著。指代理解:在 Ref-YouTube-VOS(73.5 J&F)、RefCOCOg(85.2% 准确率)等任务中表现最优。综合推理:在新提出的 PixelQA 任务中,UniPixel-3B 以 58.7% 的准确率超越 72B 模型(41.2%),展现出跨模态推理的深度整合能力。
图片
北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;公司生产和交付延期,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。
图片
于芳博:中信建投人工智能组首席分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖人工智能等方向,下游重点包括智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向
辛侠平:中信建投证券人工智能行业分析师,中央财经大学硕士,曾从事通信行业研究工作,2022年加入中信建投人工智能团队,重点覆盖人工智能、AI芯片、智能驾驶等领域。
图片
证券研究报告名称:《多模态大模型首次实现像素级推理,UniPixel发布》
对外发布时间:2025年10月20日
报告发布机构:中信建投证券股份有限公司 
本报告分析师: 
于芳博 SAC 编号:S1440522030001
辛侠平 SAC 编号:S1440524070006