真正的系统级AI，或许要到Android 16才能看到

刚刚过去的十月，一众国内手机厂商都带来了新款旗舰机型，在强劲的性能、出色的影像能力之外，AI无疑成为了挂在各大厂商嘴边的一个词，系统级AI更是一夜之间就成为了各家OS的标配。作为Android生态的盟主，谷歌自然不会对此熟视无睹。

日前有消息显示，谷歌正在为Android 16开发一个全新的功能，可以让Gemini代表用户来操作其他应用。据悉，谷歌方面希望将Gemini打造成智能手机上的AI智能体，从而让当初Pixel 4上的Google Assistant从Demo变为现实。其实早在2019年发布Pixel 4时，谷歌就曾展示了通过Google Assistant来操控Chrome浏览器。

只不过彼时Google Assistant控制Chrome是基于语音指令来实现，其实与苹果Siri的快捷指令没有本质区别。到了AI时代、特别是2024年，一众国内厂商纷纷展示了比Google Assistant操控Chrome浏览器或Siri快捷指令更有未来感的技术。

比如在发布Magic7系列之前，荣耀CEO赵明与360创始人周鸿祎进行了一次关于AI的对谈直播，期间赵明展示了用Magic 7来实现一句话点咖啡。当时他对着手机说了句，“给我点三杯瑞幸冰美式，大杯”，Magic 7的YOYO智能体就按照要求进行了操作，打开美团、并点选直播间的地址，选择瑞幸订了三杯大杯的冰美式。

事实上，MagicOS 9.0搭载的YOYO智能体就如同一位人类助理，可以自主打开App、解析屏幕内容，并执行一系列的点击操作，只有在最后的“确认支付”环节才需要用户介入，来完成整个流程。无独有偶，在OPPO的ColorOS 15中，同样也提供了超级小布助手可以代替用户进行一系列的操作。

既然如此，谷歌此举是不是在重复造轮子呢？答案其实是否定的，因为虽然谷歌的Gemini与荣耀的YOYO智能体、OPPO的超级小布助手所实现的效果相似，但技术路径却大相径庭。荣耀和OPPO等手机厂商实现这一功能的路线是AI视觉，荣耀方面在宣传MagicOS 9.0时就曾打出“纯AI视觉、三方零适配”这样的宣传语。

当初Google Assistant控制Chrome和Siri的快捷指令，其实都是基于谷歌和苹果面向残障人士设计的AccessibilityService（无障碍功能）的衍生能力。事实上，Android和iOS均要求开发者为App的功能按钮加入无障碍标签，系统可以通过读取这一标签实现对屏幕内容的认知，进而执行模拟用户点击某个选项以及滑屏等等操作。

OPPO、荣耀目前则是在此基础上更进一步，直接通过AI视觉来实现“屏幕识别”，但让AI与用户共享视野实际上并没有完全打通系统层和应用层，这也是为什么荣耀方面敢于宣称“三方零适配”的原因。基于AI视觉的智能体本质上扮演的是有手有眼的人，是通过模拟人的行为来实现对手机里App的操控。

但谷歌走的是打通系统层和应用层的路线，在Android 16上他们开发了一个名为app functions（应用功能）的API，开发者可以使用这个API定义App的服务、进而创建相关功能，并将其分享给Android的App Search框架。简而言之，app functions就相当于允许开发者向系统“贡献”App的某项能力，从而让AI助手具备通过系统底层调动App的能力。

显而易见，谷歌的这个路线或许更有前景。因为AI视觉路线固然可以让手机厂商无需与第三方App适配，但代价其实也很明显，因为用户体验的并未实现质的飞跃，用户看着AI助手通过模拟点击的方式一步步操作，在观感上与当初的Siri快捷指令毫无差异。说白了，用AI视觉路线来实现智能体，看起来还不够科幻。

所以从某种意义上来说，谷歌将在Android 16上推出的app functions API，或许是实现统一的AI系统底座和系统级智能体的前置条件，只有这样才能为用户提供一种是在使用AI手机的感受。