谷歌推出开源模型Gemma,与OpenAI和Meta卷成团儿


谷歌刚刚发布了Gemma,称其目前为止最强的开源大型语言模型(LLM)。
它可以商业使用,表现超过Mistral AI 7B和LLaMa 2,尤其在Human Eval和MMLU测试中表现优异。
这是基于Gemini的第一个开放模型:
  • 提供两种规格:2B和7B。
  • 超过Mistral 7B、DeciLM 7B和Qwen1.5 7B。
  • 2B和7B不同的指令模型。
  • 默认上下文窗口为8192。
  • MMLU得分为64.56,7B平均排行榜得分为63.75。
  • 2B模型兼容手机。

图片

(Gemma 7B在主要测试中超过Llama 13B和Mistral 7B )
为终端设备而生
英伟达几乎同时宣布,与谷歌合作,把Gemma开源模型部署到终端设备上。而英伟达针对PC的Chat with RTX,几天前才刚刚推出。
英伟达提供了针对大模型的推理引擎TensorRT,帮助Gemma模型兼容于英伟达AI平台,并且解决了高通量计算、资源优化和实时等问题。
谷歌也强调了Gemma的跨设备兼容性,包括笔记本电脑、台式机、物联网设备、移动设备和云端,使 AI 能力广泛可用。
对于闭源大模型来说,目前在模型扩展和应用方面面临着几个重要瓶颈:第一是基于云的推理成本仍然太高,第二是延迟等问题严重,受到云端推理引擎本身的影响,也要应对越来越高的并发推理请求。第三是模型越大,通用AI越强,但也会更复杂,应用于各种场景,其灵活和经济性受到掣肘。第四是通用模型本身面临的幻觉问题,需要与场景知识结合,才能部分解决。
在这些方面,开源模型可以灵活部署,对应用场景的渗透力较强,尤其是直部署到PC这样的生产力工具终端设备,以及手机这样的日常终端设备上,包括一些AI原生应用的设备,已经成为今年以来的大趋势。
这让我们想起去年底谷歌推出了Gemini时,有两个Nano小模型,2B和7B,直接部署到设备端。而Gemma 的2B和7B,应该是其开源版本。
英伟达称,单个H200 GPU在Gemma 2B模型上可以每秒提供超过79,000个token,而在更大的Gemma 7B模型上则接近每秒19,000个token。相比之下,最近叫板GPU的Groq,每秒500个token
将这种性能放入上下文中,配备TensorRT-LLM的Gemma 2B模型,仅部署在一个H200 GPU上就可以为超过3,000个并发用户服务,所有这些都具有实时性。实时性已经成为最重要的AI体验之一,在设备端部署模型,提供了一种解决方案。
Gemma on Android
移动时代,谷歌,在开源领域大获成功,其安卓系统占据了70%的手机市场。在AI大模型时代,同样会出现闭源大模型与开源大模型的对峙,它们都将成为AI计算平台的操作系统。
谷歌曾经引领了AI模型的开源运动,如Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode,都是谷歌为开源社区贡献的创新。
但是,一年前Meta推出的Llama,一下子抢走了谷歌的风头,加上年底推出的Mistral开源模型,让谷歌有掉队的风险。
开源小模型+低延迟的推理AI体验,与终端设备的结合,如PC和手机,是今年的一股浪潮。如果谷歌想在AI设备端保持其在手机领域安卓操作系统相当的地位,则必须超过Llama和Mistral。
在宣布与英伟达合作后,下一个目标,应该Gemma on Android。安卓占据了手机和移动设备市场的70%,把Gemma部署到安卓设备上,应该有非常大的潜力。
Meta、 Mistral的竞争
Meta推出Llama之后不久,谷歌内部曾传出过一种说法,面对开源模型,“我们没有护城河,OpenAI也没有”。如今Meta正在打造全球最大算力集群, 要在AI时代利用开源模型建立起自己的跨设备系统平台。
Llama2 与Mistral主导了开源大模型世界。不可否认,在综合性能上,闭源大模型对开源大模型保持着先进性。到2023年底,最先进的开源模型达到了GPT-3.5的水平,2024年的目标是年底达到GPT-4的水平。开源大模型在性能上始终会比闭源大模型滞后1年到1.5年,或者一代到1.5代。
但是开源大模型拥有自己的优势。它能以更快的方式迭代,能更快地进入应用领域,能通过开放的力量加快把大模型应用于千行百业。它的优势并不在于通用性,而是在于具体性,经济性。
高质量的数据能训练出优秀的小模型,尤其是在垂直应用领域,这正是开源模型最具生命力之处。
谷歌有开源的传统。谷歌曾经推出了多个开源模型。OpenAI没有现成的应用场景和业务,而谷歌拥有丰富的应用场景,搜索、视频、自动驾驶、物联网、机器人、生产力工具、地图,等等。小型大模型(SLLM),才能灵活地结合这些应用场景,推出丰富的产品,也可能从中产生杀手级的应用。
从目前来看,开源模型相对闭源模型最大的优势,是它能灵活地部署到终端设备、需要边缘计算的场景。它对于AI大模型在云端规模化来说,是规模化的另外一条道路。而且会产生云边端混合计算的架构。
OpenAI的竞争
从中国龙年的除夕到正月十五期间,谷歌连珠炮般地推出了Gemini Ultra、Gemini Pro 1.5、Gemma开源模型,谷歌正在改变GPT-4(V)主导的大模型江湖。
谷歌拥有从大模型、算力基础设施、TPU芯片到应用场景的垂直一体化的业务模式,算力总体性价比上可以领先于微软和亚马逊。OpenAI毕竟没有自己的算力基础设施,而从芯片、系统到大模型的一体化越来越重要,发挥这方面的整体潜力,包括推出开源模型,是谷歌与OpenAI竞争的策略。OpenAI深知这一点,奥特曼正在到处融钱造芯片,无论是几百亿美元,还是7万亿美元,直接的需求,是要把芯片和基础设施掌握在自己手里。只有垂直一体化,才能不断降低推理成本,大模型才能支持更多的杀手级AI应用出来。
谷歌与OpenAI的团队之间的联系非常密切。从谷歌跳槽到OpenAI的员工,目前仍然在使用Google Meet开会,( 包括在董事会政变期间,董事会成员之间的构通都用Google Meet )。谷歌DeepMind CEO 哈萨比斯提出,将会进入产品和技术提前发布的节奏。这样,两家之间在开发管线安排与产品发布时机之间的安排,将会进入一个互相比照穿插的阶段。
谷歌与微软/OpenAI的竞争,节奏正在带起。