国家科技奖 | 让机器理解动态视觉数据能力更强,复旦姜育刚团队获国家自然科学二等奖

图片
让机器会“看”并且能“看懂”。复旦大学计算机科学技术学院姜育刚教授、吴祖煊副教授、薛向阳教授与大数据学院付彦伟教授等共同完成的项目《多元协同的视觉计算理论与方法》获得国家自然科学奖二等奖。
简言之,在姜育刚团队的理论和方法“加持”下,不论是过去的统计机器学习方法还是卷积神经网络,乃至最新的多模态大模型,人工智能在“看”到不论是图片还是视频动态视觉数据时,都有着更好的“理解能力”。
“运用我们的方法可以大幅提升视觉计算的性能,让机器人更好地感知环境,是当下火热的‘具身智能’的核心技术,还可以让自动生成的图像、视频内容质量更高,为设计师提供更多创作灵感。”姜育刚告诉记者。
解决复杂动态视觉数据识别的关键难题
当下,以图像和视频为主的视觉数据占据互联网流量90%以上。而视觉计算则是对海量图像、视频等视觉数据进行智能分析,提取物体、场景、运动、交互等重要信息,赋予机器“看”的能力。这是人工智能领域的核心研究方向,也是社会治安防控、网络内容安全等国家战略应用的重大需求。
最近十几年来全球科学界对视觉计算的研究已取得较大进展,中国在视觉计算领域处于第一梯队,包括复旦大学在内的国内高校在视觉计算的研究和应用上取得了显著进展。但是,复杂动态视觉数据的理解仍极具挑战。如何建立多元协同的视觉计算理论与方法,是长期困扰学术界的难题,更被图灵奖得主Y. Lecun认为是“根本挑战”。
图片
 “就以视频数据为例,因为较之二维的图片数据,视频数据有了时间维度,蕴含丰富的时序、声音、文本等信息,这些多模态信息交织在一起,增加了理解的难度。”姜育刚在接受记者采访时解释称,视觉计算的多元复杂性,首先体现在视觉数据的采集视角变化多样,简言之,同一目标在不同视角下的二维图像数据就可能有较大差异,这也导致当前视觉计算方法难以建立不同视角数据之间的有效关联。同时,视觉数据中的物体、场景等静态特征和运动、时序、声音等动态特征之间的关联如何通过算法来建立关联?如何通过寻找不同视觉语义间的关联规律提升识别性能?这些都是视觉计算中的重要难题。
姜育刚团队通过长期攻关揭示了视觉计算中数据层、特征层、语义层的多元复杂特性,也就是不同数据视角、高维特征、语义类别间关联耦合关系,提出了适应各层特性并逐层解耦的协同建模方法,形成了贯穿数据处理、特征融合、语义识别全过程的多元协同视觉计算理论体系。
从零起步,在国际测评中持续多年成绩突出
姜育刚团队主要从事的是动态视觉数据,特别是视频数据的理解。“视频数据量特别大,对其分析处理相比于图像需要的计算资源也比较多,使用传统的CPU进行计算比较慢。我们是最早一批尝试用GPU对视频数据进行处理的团队。”姜育刚告诉记者,“大约是10多年前开始从事这一研究,那时并没有特别成熟的开源框架,我们通过不断测试调优,最终方才实现高效的视频理解。”
这些研究成果显著提升了视觉计算性能,得到了国内外学者的广泛认可,引发了大量跟踪研究,带动了相关学科领域研究与应用的新发展。项目成果被评价为具有“开创性”,是“最好的”、“最先进的”等。团队提出的方法和模型在多个数据集上都取得了最好的性能,跟之前的方法相比也有显著的提升。
从2008年至今,团队在面向全球的公开评测中都取得了领先成绩。比如,在美国国家标准与技术研究院主办的TRECVID视觉语义识别国际评测中,团队在2008年、2010年获第一名;在欧洲MediaEval评测中,团队在2014年、2015年蝉联暴力场景视觉语义识别任务第一名;在2019年谷歌公司YouTube-8M短视频视觉语义识别挑战赛中,获全球第二、亚洲第一的成绩;在刚刚结束的国际计算机视觉与模式识别大会CVPR上,团队在大规模开放词汇目标检测等三个挑战赛中斩获第一名。
从基础理论到应用,视频数据集也为全球科研机构争相使用
团队所完成算法目前也已进入实际应用,基于这一理论成果研制的系统多次服务国家重大需求,在关键应用中体现了其优异性能。
以高铁关键设施的故障检测为例。铁路的基础设施包括轨道扣件、电务线缆等,传统检测方式是人工巡检,效率特别低,经常出现漏检的情况。基于视觉计算的理论成果,姜育刚团队与铁道科学研究院基础设施检测研究所联合攻关,成功解决了轨道扣件等高铁设施的故障检测难题。这一系统已实际应用多年,多次成功发现并排除了重大安全隐患。大幅提升了缺陷检测精度。
企业应用场景中的痛点问题也通过这一方法得以解决。团队与华为的核心业务部门联合研发了融合视觉与语言的多模态检索技术,可以方便用户更好、更快地从海量的相册中找到自己感兴趣的图像、视频,相关成果已在华为的旗舰手机中得到应用。
同时,团队也致力于大规模数据集的构建与开放共享,与美国哥伦比亚大学、中佛罗里达大学、谷歌公司等研究团队联合构建的数据集,如FCVID、CCV、THUMOS,涵盖视频识别、视觉匹配、动作定位等多个视觉计算任务,被斯坦福大学、加州大学伯克利分校、微软等千余家机构使用。
  作者:姜澎
文:姜澎图:受访者供图编辑:储舒婷责任编辑:唐闻佳
转载此文请注明出处。