划重点
01OPPO AI科学家张磊带领团队成功研发出业内首个自研“千里长焦”技术,应用于Find X8系列手机。
02该技术利用大模型生成式AI,将60倍手机拍摄的模糊照片变清晰,显著提升成像效果。
03为此,OPPO影像算法总监罗俊和团队在硬件和软件层面进行了多项创新,如舰式长焦解决方案和优化算法等。
04据市场数据显示,Find X8系列销量突破100万台,成为Find系列史上同期销量最高的产品。
05除此之外,OPPO与香港理工大学合作升级联合实验室为联合创新研究中心,以培养更多AI影像领域人才。
以上内容由腾讯混元大模型生成,仅供参考
千里长焦是如何炼成的。图片来源:视觉中国
文丨伊万万
出品丨深网·腾讯新闻小满工作室
2012年以来,中国智能手机公司从遍地开花、群雄逐鹿,到开启全球征途,有一条规律:绝大多数未做到现象级创新的手机公司名字已随风飘散。
OPPO顽强生存并发展起来。十年前自研的手机快充技术,让用户“充电5分钟,通话2小时”,独一无二的价值成为OPPO年销量过亿部的重要推动力。目前,OPPO全球销量排名第四,在70多个国家和地区销售手机。
最近四五年,AI提供了一次新机会。“手机的未来是AI,AI的未来是手机,或者一种现在还未知的终端”,OPPO AI科学家张磊判断。影像作为手机重要功能,由AI变量开启了新空间。
以AI影像赛道为例,OPPO旗舰机经过Find X6、X7和X8连续三次迭代,AI显现的作用越来越强。AI长焦1.0应用于Find X6系列长焦,解决拍得清晰问题。AI长焦2.0应用于Find X7系列长焦,拓展应用到大师模式全焦段。其中Find X7 Ultra超长焦采用生成式超分方案,显著提升了10倍以上的成像效果,有用户称之为“拍演唱会神器”。
可见,AI+影像,作为一种新力量登场,正让越来越多用户感受到新价值。2024年上半年,Find X8搭载的业内首个自研“千里长焦”技术,诠释了大模型生成式AI与影像碰撞出的新火花。
两年前埋下的AI“火种”
2022年4月份,橙子硕士要毕业,来到了Y Lab,成为实验室一名实习生,等待9月份香港理工大学开学。博士导师张磊受疫情影响,仍在隔离。同门同级的还有小吴,另外两位同学,一名张磊门下已毕业的博士生,一起构成了Y Lab最初班底。Y Lab归张磊统管,主攻AI影像,由OPPO公司与香港理工大学联合建立。
张磊是底层视觉领域的权威专家之一,Y Lab寄托着他的抱负与理想。实验室成立之初,需要一个代号,张磊觉得Y与Why同音,有探索意味,决定用Y。“后来,我发现影像的影,声母正好是Y。”张磊说。按照设想,这个实验室将致力于弥合学术圈与工业界之间的隔阂,探索AI前沿技术并落到手机产品里,让更多人享受AI的红利。
他又是一位“纯粹”的教授,主要精力在学术科研上面,对一些交际性活动兴趣不大 。加入OPPO之前,他再三向时任OPPO研究院负责人刘畅确认,OPPO内部是不是足够简单直接,部门墙厚不厚?前面三年工业界的经验,张磊深知要想在企业有所作为,企业内部团队之间的协作是否顺畅,至关重要。刘畅再三保证,“OPPO提倡本分,追求简单专注,不复杂”。
他也很快见识到了张磊的“纯粹”。在当年公司级创新成果展示评审会上,张磊直接对着一个汇报开喷:“你说你技术非常创新,实现了从0到1,绝无仅有,那么这个技术到底用在哪里?改变了什么?真正价值体现在哪里呢?”直击要点的发问让汇报对象一时语塞。
橙子与小吴就是在这样大牛指导下快速学习着AI领域新技术,并想着如何把最新AI功能应用到手机影像上。
2023年5月,橙子和小吴的实习生涯忽然加速。当时,通用大模型ChatGPT激起的AI热情与想象已持续了近半年,预训练文生图大模型Stable Diffusion (SD)正火爆中, 行业内一篇论文预印本挂出来,第一次将SD大模型应用到图像超分增强领域。张磊要求抓紧跟进,事实上他的一位合作伙伴同期也在做类似的研究并有了初步结果。
ChatGPT风起云涌,代表着实现了AI从卷积神经网络向Transformer架构代际跨越,孕育出各种可能。对于手机端,大模型算法如何装到小的手机里,能否帮助手机把拍摄到的低质量的图片变成高质量的图片?这里隐约藏着变革机会。OPPO影像算法总监罗俊,对算法竞争力负责,他对我说,“大模型对手机影像的影响比预判提前了两年”。
这位上海交通大学的硕士毕业生,博士跟着一个IEEE Fellow读了一半,去了索尼,后加入OPPO,对影像有近20年的实践经验,这块是张磊所需要的。
张磊刚加入OPPO时,赶上了Find X6项目。通过这个项目中AI算法和影像结合,两人加深了理解,罗俊加速了张磊融入OPPO的步伐。大模型出现后,他们经常探讨适合Y Lab做的前沿算法功能。
张磊渐渐明确了方向,先从小体量图片入手,用大模型把60倍手机拍摄的模糊照片变清晰,就是一项突破(这个项目后来被称作千里长焦)。前提是代码写出来,算法跑通,成熟后再工程化落地,投到市场。
这是一场兼跨学术圈和企业界的竞赛,任务落到橙子与小吴身上,成与败,关系到他们学业进步,也关系到Y Lab颜面。OPPO过往在影像上有着相当多积累,从早期翻转摄像头,到首次开创美颜,升降摄像头,还有OPPO研发团队创造性地提出了四合一像素聚合技术一RGBW等等,在生成式AI新阶段,率先做出影像成绩,也关系到OPPO江湖地位。
从bad case到good case
橙子和小吴分头行动。凭着技术积累,橙子琢磨出一种叫CCSR的算法。简单来说,过程是这样的:张磊让橙子寻找diffusion与对抗神经网络GAN两种生成模型范式的优缺点并尝试结合,橙子试过之后发现不行,自己提出了一种解决方案。“橙子有灵气,有些方法我想不到”,张磊说。
小吴利用文生图思路,先抽取输入图像中的内容转化为文字标签(Tag),比如房子、鸟、帆船等,再反馈输入给控制部分,经过迭代生成高质量图片。这个方法取名SeeSR。
两种方法都写成论文投了出去。但是,大模型用到手机里有两大挑战。一是算法体量大,超过3个G,需要轻量化,二是要减少迭代步数。
CCSR迭代频数需要50步,橙子后面不断优化,经过两个月迭代,降到15步,最终降到3步,已达到极限。SeeSR虽然迭代步数略微少,可是输出图像稳定性不如CCSR。只有减少步数,才可以减少手机能耗,缩短拍照成像时间。
有了初步算法,想试试效果。“最早拿算法效果给手机影像相关的部门的人看,跑完了,大家发现画质几乎没有提升。”张磊让他俩继续优化,并注意数据集区别。“论文里都是最优、最理想的情况,只要理论上可行即可,实际操作中数据上天差地别。”他们要明白学术上用good case(理想情况),工程落地上关注bad case(异常情况)。
根据项目进程,部署时间挺紧张。大家商量CCSR改到极限后,部署同事先着手工程化落地。这已经到了2024年3月中旬。
有一天,小吴看到有人在图像生成领域用diffusion做到单步生成文章,这个或许可以替代之前多步迭代。
他感到兴奋,尝试把它迁移到算法里。第一版结果出来之后,他汇报给导师,得到老师正面反馈:推理只用了单步,优点明显。随后,张磊猜想另一位同学研究的“文生3D”使用的分数蒸馏方法,可以加进来。他让这位同学和小吴、橙子一起优化。
赶工几周,算法逐渐成型,最后取名OSEDiff(单步复原,后来对外名称叫千里长焦技术)。2024年4月中旬,三个人着手整理实验和写文章,经过师生一起一个月的努力,文章写好投到NeurIPS上。手机界领先苹果和三星、首创的大模型复原60倍长焦图像项目,自此有了算法雏形。
后来,回顾这一次自研算法成功,张磊谦虚地说,“我享受和学生讨论,互相激发灵感的过程。通过不断提问,让他们捋清研究动机,找到解决方案,并且有真正的价值,解决真正问题。”罗俊知道这种说法不是全部:张磊老师一直特别严格。
算法迭代与落地部署是上下游关系,张磊介绍,单步复原算法落到手机上,颇费了一番周折。除了算法的定型,工程端的优化部署,是另外一个难点和关键。
“本分派”的胜利
千里长焦项目落地部署,需要不同部门认可。承担这个重任的是张磊刚毕业不久的博士生小海,系OPPO Y Lab的正式员工。
之前项目组已经基于CCSR不断地进行优化,把大模型减枝缩小,各个流程审批跑通,马上准备导入手机产品线了,这时单步复原算法半路杀出,怎能保证效果更好?大家就让两种方法来比试一下效果。单步复原法初战失败。
“部署的同事对于更换方案意见挺大,毕竟基于CCSR已经部署了一段时间,直接更换方案意味着前段时间工作打水漂”,小吴说。双方展开了一番激烈争论。正是这次争论,让小海对小吴刮目相看,“敢于坚持自己想法”。
张磊坚信单步算法更有前途。他拍板让他们继续优化单步方案效果,争取超过CCSR;同时,部署同事继续按照原方案部署。
过了一段时间,张磊组织了一次盲选会,准备了100张图,分别由单步算法和CCSR复原而成,发给了图片认知组、测试组、影像算法组、产品线等各个条线成员,让他们挑选质量更好的照片。这一次,单步算法完胜。
小海开始切换单步算法部署。他要把之前CCSR部署所做的事重来一遍。好在这一次驾轻就熟。
之前部署时,小海颇受过一番折磨,AI复原图像是新事物,内部有些人没见过,说服难度较大。初次评审,ROM size比以前大太多,被否。二次评审到软工部门,“超过了软件开发对大小增量的判断”,但是认可了技术价值。
算法原始模型接近3.5G的容量,直接装载进手机内存几乎是不可能的。要是放在云端,使用时下载,用户要经过漫长等待。在不影响精度的前提下,小海和同事们压缩、去除冗余,这块没有先例可借鉴,只能摸索前行。经过一段时间努力,硬是把整体容量优化到1000M以下。
继续解决完浮点数存储和数据问题并单独设计后,包体变小了一些,但是还不完美。最后借力合作方力量,小海拉通高通、联发科技等芯片公司支持,算法整体进一步缩小,达到预装进手机的体量要求。“论文发表讲的是原理性东西,真正工程化实现部分是无法体现在论文里的”,算法总监罗俊说。
最后一次评审汇报,小海从 AI 长焦生成图像快捷(只要2秒多一点)、效果稳定、耗电节省三个方面把价值说了一遍。“很快,40分钟,软件产品决策会给了通过决议”,小海说。这是2024年5月份,单步算法拿到了集成进10月份发布的旗舰手机Find X8系列许可证。
2024年12月份,在办公室里,张磊回忆Y Lab跑通千里长焦项目时,颇为感慨地说,“一切都是最好的安排”。年轻人贡献想法和精力,张磊指挥队伍,OPPO搭建平台,整个项目创新成功,缺一不可。“OPPO影像和产品部门罗俊、张弓和贾玉虎,心态开放,是可以托付后背的本分派。”
为何会是Find X8?
2018年前,OPPO影像在行业处于领先位置,但是此后似乎迷失了方向。这让OPPO公司一些人内心恼火:要重新夺回荣光。
2023年底起,罗俊、张弓和贾玉虎等OPPO影像部门骨干,由CEO陈明永带队,参加了一系列一线用户调研。由此,影像部门自身也组织了一系列针对性调研。“没有调查就没有发言权”,成为OPPO内共识。
技术像射出去的箭,因为调研,有了用户喜好的靶心;组织运作像行军部队,因为调研,有了合适的节奏。过往影像理念上的纷乱噪音和争论,在调研后逐渐减少。
他们通过用户调研有收获。有一次在成都春熙路,罗俊和同事们去一个打卡点拍大熊猫像。在人群中,本来罗俊是想拍请的模特,后来发现还是拍一个路人(用户)更好。“因为你看自己和别人看你是不一样的”,罗俊说,“这是主观印象和客观印象的区别”。然后,拿着不同型号手机请用户自拍完后,再让用户去挑,去对比,找出优缺点。
一线场景调研通过这些零散的信息,过滤掉个体差异,再通过一套方法得出共性内容作为影像技术的指导。这些坐在公司办公室里不可获得。
在打造Find X6阶段,OPPO为了统一和提升影像认知,成立了一个由专家组和摄像师、资深用户组成的认知组,大大提升了影像光影格调。但是,在Find X7推出后,用户有一种声音:手机拍出的“大片”很有格调,不过面部有些过暗。可见,用户并不完全买账。在大众审美与专业审美之间有一条若隐若现的鸿沟。如何取舍?解决之道在调研后有了统一的答案。
影像本身的矛盾既体现在软件上,也体现在硬件当中。尤其是进入AI时代,大数据、大模型、大内存和长续航等等需求,正让手机变得越来越重,手机硬件中重要组成——影像模组也变得越来越大。一贯对轻薄外观有执念的OPPO,需要拿出解决之道。
经过一段时间摸索,OPPO影像器件部总监周奇群和团队洞察出这一痛点,琢磨出舰式长焦解决方案。他们拉通合作供应商丘钛科技一起,最终实现量产。该方案通过拍摄光线的3次折射成像,将影像模组体积减少了24%~33%,装入手机后,手机变薄了许多。同时,成本上相较苹果所用模组也有较大优势。效果上,更大光圈的长焦,也让夜景更优秀,更清晰。
多种“维新”汇聚,连同抓拍和多种AI交互方式创新一起,落到Find X8上,使得这款AI手机名实相符。在竞争激烈的九、十月份手机市场,Find X8系列取得了自己的市场份额。
据市场数据显示,10月24日发布以来,到12月初,Find X8系列销量突破100万台,是Find系列史上同期销量最高的产品。在亚太、欧洲等海外地区,上市后销售表现亮眼——新加坡、泰国、印尼、意大利、西班牙、马来西亚等核心市场首销对比上代增长1-2倍,其中马来西亚创Find系列首销纪录。
AI改变影像的故事还在继续。趋势在手,首个60倍千里长焦项目落地,只是阶段性胜利,长征第一步,它日常使用次数不多,张磊想做更多场景。他瞄准了30倍、20倍,6倍甚至基础倍率的生成式图像复原。“千里长焦处理1K像素以下图像,后面去做2K、4K影像,还有视频、相册等。”
这需要大量人才。2024年11月,OPPO与香港理工大学决定升级联合实验室为联合创新研究中心,签约仪式安排在香港理工大学,滕锦光校长出席。
按照合约,双方合作培养人数增加,资金增多2倍。
2024年12月份,橙子完成了最新算法一项新技术,可以大幅提升OSEDiff的上限,使得千里长焦的效果更生动自然,这个算法将会部署在OPPO下一款旗舰手机上。
(文中橙子、小吴和小海是化名)