谷歌推出开源模型Gemma，与OpenAI和Meta卷成团儿

未尽研究

2024-02-23 20:09发布于上海未尽研究官方账号

谷歌刚刚发布了Gemma，称其目前为止最强的开源大型语言模型（LLM）。

它可以商业使用，表现超过Mistral AI 7B和LLaMa 2，尤其在Human Eval和MMLU测试中表现优异。

这是基于Gemini的第一个开放模型：

提供两种规格：2B和7B。
超过Mistral 7B、DeciLM 7B和Qwen1.5 7B。
2B和7B不同的指令模型。
默认上下文窗口为8192。
MMLU得分为64.56，7B平均排行榜得分为63.75。
2B模型兼容手机。

（Gemma 7B在主要测试中超过Llama 13B和Mistral 7B ）

为终端设备而生

英伟达几乎同时宣布，与谷歌合作，把Gemma开源模型部署到终端设备上。而英伟达针对PC的Chat with RTX，几天前才刚刚推出。

英伟达提供了针对大模型的推理引擎TensorRT，帮助Gemma模型兼容于英伟达AI平台，并且解决了高通量计算、资源优化和实时等问题。

谷歌也强调了Gemma的跨设备兼容性，包括笔记本电脑、台式机、物联网设备、移动设备和云端，使 AI 能力广泛可用。

对于闭源大模型来说，目前在模型扩展和应用方面面临着几个重要瓶颈：第一是基于云的推理成本仍然太高，第二是延迟等问题严重，受到云端推理引擎本身的影响，也要应对越来越高的并发推理请求。第三是模型越大，通用AI越强，但也会更复杂，应用于各种场景，其灵活和经济性受到掣肘。第四是通用模型本身面临的幻觉问题，需要与场景知识结合，才能部分解决。

在这些方面，开源模型可以灵活部署，对应用场景的渗透力较强，尤其是直部署到PC这样的生产力工具终端设备，以及手机这样的日常终端设备上，包括一些AI原生应用的设备，已经成为今年以来的大趋势。

这让我们想起去年底谷歌推出了Gemini时，有两个Nano小模型，2B和7B，直接部署到设备端。而Gemma 的2B和7B，应该是其开源版本。

英伟达称，单个H200 GPU在Gemma 2B模型上可以每秒提供超过79,000个token，而在更大的Gemma 7B模型上则接近每秒19,000个token。相比之下，最近叫板GPU的Groq，每秒500个token

将这种性能放入上下文中，配备TensorRT-LLM的Gemma 2B模型，仅部署在一个H200 GPU上就可以为超过3,000个并发用户服务，所有这些都具有实时性。实时性已经成为最重要的AI体验之一，在设备端部署模型，提供了一种解决方案。

Gemma on Android

移动时代，谷歌，在开源领域大获成功，其安卓系统占据了70%的手机市场。在AI大模型时代，同样会出现闭源大模型与开源大模型的对峙，它们都将成为AI计算平台的操作系统。

谷歌曾经引领了AI模型的开源运动，如Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode，都是谷歌为开源社区贡献的创新。

但是，一年前Meta推出的Llama，一下子抢走了谷歌的风头，加上年底推出的Mistral开源模型，让谷歌有掉队的风险。

开源小模型+低延迟的推理AI体验，与终端设备的结合，如PC和手机，是今年的一股浪潮。如果谷歌想在AI设备端保持其在手机领域安卓操作系统相当的地位，则必须超过Llama和Mistral。

在宣布与英伟达合作后，下一个目标，应该Gemma on Android。安卓占据了手机和移动设备市场的70%，把Gemma部署到安卓设备上，应该有非常大的潜力。

与Meta、 Mistral的竞争

Meta推出Llama之后不久，谷歌内部曾传出过一种说法，面对开源模型，“我们没有护城河，OpenAI也没有”。如今Meta正在打造全球最大算力集群，要在AI时代利用开源模型建立起自己的跨设备系统平台。

Llama2 与Mistral主导了开源大模型世界。不可否认，在综合性能上，闭源大模型对开源大模型保持着先进性。到2023年底，最先进的开源模型达到了GPT-3.5的水平，2024年的目标是年底达到GPT-4的水平。开源大模型在性能上始终会比闭源大模型滞后1年到1.5年，或者一代到1.5代。

但是开源大模型拥有自己的优势。它能以更快的方式迭代，能更快地进入应用领域，能通过开放的力量加快把大模型应用于千行百业。它的优势并不在于通用性，而是在于具体性，经济性。

高质量的数据能训练出优秀的小模型，尤其是在垂直应用领域，这正是开源模型最具生命力之处。

谷歌有开源的传统。谷歌曾经推出了多个开源模型。OpenAI没有现成的应用场景和业务，而谷歌拥有丰富的应用场景，搜索、视频、自动驾驶、物联网、机器人、生产力工具、地图，等等。小型大模型（SLLM），才能灵活地结合这些应用场景，推出丰富的产品，也可能从中产生杀手级的应用。

从目前来看，开源模型相对闭源模型最大的优势，是它能灵活地部署到终端设备、需要边缘计算的场景。它对于AI大模型在云端规模化来说，是规模化的另外一条道路。而且会产生云边端混合计算的架构。

与OpenAI的竞争

从中国龙年的除夕到正月十五期间，谷歌连珠炮般地推出了Gemini Ultra、Gemini Pro 1.5、Gemma开源模型，谷歌正在改变GPT-4（V）主导的大模型江湖。

谷歌拥有从大模型、算力基础设施、TPU芯片到应用场景的垂直一体化的业务模式，算力总体性价比上可以领先于微软和亚马逊。OpenAI毕竟没有自己的算力基础设施，而从芯片、系统到大模型的一体化越来越重要，发挥这方面的整体潜力，包括推出开源模型，是谷歌与OpenAI竞争的策略。OpenAI深知这一点，奥特曼正在到处融钱造芯片，无论是几百亿美元，还是7万亿美元，直接的需求，是要把芯片和基础设施掌握在自己手里。只有垂直一体化，才能不断降低推理成本，大模型才能支持更多的杀手级AI应用出来。

谷歌与OpenAI的团队之间的联系非常密切。从谷歌跳槽到OpenAI的员工，目前仍然在使用Google Meet开会，（包括在董事会政变期间，董事会成员之间的构通都用Google Meet ）。谷歌DeepMind CEO 哈萨比斯提出，将会进入产品和技术提前发布的节奏。这样，两家之间在开发管线安排与产品发布时机之间的安排，将会进入一个互相比照穿插的阶段。

谷歌与微软/OpenAI的竞争，节奏正在带起。

查看原图 33K