1.杭州研究团队将DeepSeek-R1的训练方法从纯文本领域迁移到视觉语言领域,推出全新开源项目VLM-R1。
2.VLM-R1在视觉识别方面具有卓越推理能力,能准确找到给视障人士造成危险的物体。
3.除此之外,VLM-R1在“举一反三”“触类旁通”上表现出强大的“泛化”能力。
4.项目负责人正在开发针对视障人群的AI眼镜,应用场景包括帮助视障人士更准确识别前方危险情况和提醒遥控器操作等。
5.未来,VLM-R1项目有望成为工地上的安全监督员和智能看家助手。
以上内容由腾讯混元大模型生成,仅供参考
潮新闻客户端 记者 黄慧仙 通讯员 赵婷
当DeepSeek“安”上“眼睛”,会聪明到什么程度?
最近,一个来自杭州的研究团队将这一设想变为了现实——新的人工智能项目将DeepSeek-R1的训练方法从纯文本领域迁移到视觉语言领域,为多模态大模型带来更广阔的想象空间。
在全球最大的代码托管与协作平台GitHub上,这款名为VLM-R1的全新开源项目,上线仅一周,就获得各国开发者给出的2000多个星标收藏,并迅速登上平台热门趋势榜。
不仅能多模态转换,还能“举一反三”“触类旁通”,这个视觉版的DeepSeek已颇具“学霸”风范。
“开发是从春节开始的,时间虽短,但好在很多基础设施是现成的,有了想法后,能快速进行实验、验证结果。”由Om AI Lab创始人,浙大博士生导师赵天成带领的这支平均年龄95后的团队,为人工智能领域带来了新惊喜。
赵天成。 受访者供图
除了垃圾桶,人行道上对盲人的危险是啥?
VLM-R1在“触类旁通”上有点天赋
在一张街景照片里,是一段马路和人行道,人行道外是一面围墙;在人行道的某个位置,还分布着一个和人行道相同走向的台阶。
“定位出图中可能对视障人士行走造成危险的物体。”在接收到任务后,VLM-R1就用红框框出了这段台阶,并给出了自己的思考过程:图片中有一个台阶;这个台阶位于人行道上,靠近人行道的一侧;这个台阶可能对盲人行走造成危险,因为盲人可能无法看到这个台阶,从而可能发生意外……
VLM-R1能在街景照片中准确找到会给视障人士造成危险的台阶。 受访者供图
这个在人类世界看似稀松平常的结果,却让很多人工智能业内人士感到惊艳。
“对人类来说,这是常识性推理,但对于传统的计算机视觉模型而言,其实是非常具有挑战性的。人工智能在视觉信息处理和文字信息处理上有着很大差异。”赵天成说。
在赵天成看来,相较于过去需要“手把手教”的传统计算机视觉技术,VLM-R1具备了卓越的推理能力,在处理问题时包含了其更为复杂的思考过程——简单的输入变成更为复杂的输出,意味着人工智能对信息有了更深的理解和更强的逻辑能力。
该项目的灵感来源于DeepSeek R1模型。
此前,大模型在提升推理能力时,通常依赖海量标注数据进行“填鸭式”教学,即“监督微调”(Supervised Fine-Tuning,简称SFT)。简单点说,就是拿一个已经学了不少东西的大模型,用一些特定的、标记好的数据,来教它如何更好地、针对性地完成某个任务。
DeepSeek-R1在训练过程中并未采用传统的“监督微调”方式,而是直接进入“强化学习”阶段。在没有监督数据的情况下,它借助群组相对策略优化(Group Relative Policy Optimization,GRPO)方法,通过纯强化学习自主探索最优路径。这种独特的训练模式,使 DeepSeek-R1具备了超越许多通用模型的学习推理能力。
基于这个思路,赵天成团队试着通过R1方法训练AI模型,从而让视觉模型也能拥有类似的推理能力。
“我们在通义开源视觉理解模型Qwen2.5-VL的基础上,同时对比了R1和SFT方法,发现R1在各种复杂场景下都能保持稳定的高性能,这对实际应用至关重要。”赵天成说。
VLM-R1能准确找到图中可以用于补充蛋白质的食材。 受访者供图
除了多模态转换的能力,在赵天成看来,VLM-R1在“举一反三”“触类旁通”上,也颇具“天赋”。
“对于街景图,人类能想到的可能对视障人士造成危险的,往往是像垃圾桶、公交站牌之类的物体,这些是可以提前标记好的‘数据’。但面对图中非常规‘冒’出来的这段台阶,AI却依然能够准确推理出来,这正是VLM-R1的厉害之处。”赵天成说。
所谓的“举一反三”“触类旁通”能力,即计算机行业内常常谈及的“泛化”能力。
“过去机器学习有个通病,就是用A任务频繁训练模型时,其对于和A没有太大相似性的B任务的执行能力就会变弱,有点‘摁了葫芦起了瓢’的意思。这在人类学习中是不会发生的,比如我学习数学,并不会导致我语文变差。”赵天成说,但使用R1方法训练的AI模型并不会出现这种趋势,这意味着R1方法能帮助模型真正“学会”理解视觉内容,而不是简单地记忆。
当人工智能具备自我反思和推理演化能力,其学习机制将更接近人类认知模式。
视觉识别员工是否戴好安全帽
这些应用场景值得期待
帮助视障人士更准确识别前方的危险情况,并且通过合理分析,减少对使用者的无关干扰;可以自行理解遥控器面板上的显示信息,并根据使用者需求,提醒其具体如何操作,而非简单地读出遥控器上的信息……
最近,VLM-R1项目负责人正在开发针对视障人群的AI眼镜,这样的应用场景正是他开发的一大方向。而VLM-R1项目的成功实验,让他对这些场景的落地,有了更大的信心。
“未来,VLM-R1项目还有望成为工地上的安全监督员,监督员工安全着装等;也有望担当起智能看家助手的职责,帮人看家护院……”对于VLM-R1项目的应用前景,该负责人有着诸多畅想。
近几年来,随着人工智能技术的发展,像人脸识别等计算机视觉技术应用层出不穷。该负责人告诉记者,目前,不少单类型的计算机视觉技术应用已不是新鲜事,但每种类型的应用往往分属于不同的算法,因此要让人工智能同步处理多类型问题,就需要将这些算法组合起来,其中牵涉到开发成本就会非常高。而VLM-R1项目的应用潜力正来源于此。
“比如在工地场景中,机器视觉识别员工是否戴好安全帽,穿反光背心等,与确认安全区域是否站人,就分属于两套算法。但基于VLM-R1的泛化能力,未来它就有望能综合处理这些问题,并解锁更多可能性。”该负责人说。
当然,开发仅仅一个月不到的时间,VLM-R1远未达到成熟。赵天成坦言,虽然底层逻辑相通,但视觉和数学、代码是完全不同的模态。如何在视觉领域进行设计,让其真正跑通,团队也经历了多次试错,才找到目前这样比较有效的组合。“有一些问题,尚需要用更多实验来解答。”
在他看来,这段时间的实验,最大意义之一是为多模态模型的训练和行业提供了一些新的思路。它证明了R1方法的通用性——不仅在文本领域表现出色,还可能引领一种全新的视觉语言模型训练潮流。
“转载请注明出处”