刚刚过去的十月,一众国内手机厂商都带来了新款旗舰机型,在强劲的性能、出色的影像能力之外,AI无疑成为了挂在各大厂商嘴边的一个词,系统级AI更是一夜之间就成为了各家OS的标配。作为Android生态的盟主,谷歌自然不会对此熟视无睹。
日前有消息显示,谷歌正在为Android 16开发一个全新的功能,可以让Gemini代表用户来操作其他应用。据悉,谷歌方面希望将Gemini打造成智能手机上的AI智能体,从而让当初Pixel 4上的Google Assistant从Demo变为现实。其实早在2019年发布Pixel 4时,谷歌就曾展示了通过Google Assistant来操控Chrome浏览器。
只不过彼时Google Assistant控制Chrome是基于语音指令来实现,其实与苹果Siri的快捷指令没有本质区别。到了AI时代、特别是2024年,一众国内厂商纷纷展示了比Google Assistant操控Chrome浏览器或Siri快捷指令更有未来感的技术。
比如在发布Magic7系列之前,荣耀CEO赵明与360创始人周鸿祎进行了一次关于AI的对谈直播,期间赵明展示了用Magic 7来实现一句话点咖啡。当时他对着手机说了句,“给我点三杯瑞幸冰美式,大杯”,Magic 7的YOYO智能体就按照要求进行了操作,打开美团、并点选直播间的地址,选择瑞幸订了三杯大杯的冰美式。
事实上,MagicOS 9.0搭载的YOYO智能体就如同一位人类助理,可以自主打开App、解析屏幕内容,并执行一系列的点击操作,只有在最后的“确认支付”环节才需要用户介入,来完成整个流程。无独有偶,在OPPO的ColorOS 15中,同样也提供了超级小布助手可以代替用户进行一系列的操作。
既然如此,谷歌此举是不是在重复造轮子呢?答案其实是否定的,因为虽然谷歌的Gemini与荣耀的YOYO智能体、OPPO的超级小布助手所实现的效果相似,但技术路径却大相径庭。荣耀和OPPO等手机厂商实现这一功能的路线是AI视觉,荣耀方面在宣传MagicOS 9.0时就曾打出“纯AI视觉、三方零适配”这样的宣传语。
当初Google Assistant控制Chrome和Siri的快捷指令,其实都是基于谷歌和苹果面向残障人士设计的AccessibilityService(无障碍功能)的衍生能力。事实上,Android和iOS均要求开发者为App的功能按钮加入无障碍标签,系统可以通过读取这一标签实现对屏幕内容的认知,进而执行模拟用户点击某个选项以及滑屏等等操作。
OPPO、荣耀目前则是在此基础上更进一步,直接通过AI视觉来实现“屏幕识别”,但让AI与用户共享视野实际上并没有完全打通系统层和应用层,这也是为什么荣耀方面敢于宣称“三方零适配”的原因。基于AI视觉的智能体本质上扮演的是有手有眼的人,是通过模拟人的行为来实现对手机里App的操控。
但谷歌走的是打通系统层和应用层的路线,在Android 16上他们开发了一个名为app functions(应用功能)的API,开发者可以使用这个API定义App的服务、进而创建相关功能,并将其分享给Android的App Search框架。简而言之,app functions就相当于允许开发者向系统“贡献”App的某项能力,从而让AI助手具备通过系统底层调动App的能力。
显而易见,谷歌的这个路线或许更有前景。因为AI视觉路线固然可以让手机厂商无需与第三方App适配,但代价其实也很明显,因为用户体验的并未实现质的飞跃,用户看着AI助手通过模拟点击的方式一步步操作,在观感上与当初的Siri快捷指令毫无差异。说白了,用AI视觉路线来实现智能体,看起来还不够科幻。
所以从某种意义上来说,谷歌将在Android 16上推出的app functions API,或许是实现统一的AI系统底座和系统级智能体的前置条件,只有这样才能为用户提供一种是在使用AI手机的感受。
【本文图片来自网络】