Google Cloud中的生成式AI：最新进展一览

非凡产研

2024-11-13 16:00发布于上海科技领域创作者

通过主题演讲、圆桌论坛、实践工作坊、互动展览、播客马拉松和晚宴派对等丰富多彩的活动形式，非凡资本为参与者打造了一个全面而深入的AI行业交流盛会。

峰会现场，Google Cloud 资深机器学习架构师王顺博士向与会嘉宾分享了《云上新旅程:生成式AI在GOOGLE CLOUD的最新进展》。

以下是他的演讲精华：

Google大模型Gemini和Imagen 3相关介绍

随着人工智能技术的迅猛发展，机器学习平台服务（ML PaaS）已经成为企业数字化转型的关键工具。在这样的背景下，谷歌云的Vertex AI平台应运而生，它提供了一个强大的环境，让客户能够训练和部署机器学习模型以及AI应用，并支持自定义大型语言模型（LLM），以满足AI驱动应用的多样化需求。

客户对大模型的需求也与日倍增。近一年来，企业客户在Vertex AI上调用Gemini API的数据量激增了36倍，而Imagen 3的推出更是推动了Imagen API在Vertex AI上的数据增长达到5倍。全球范围内，中国出海企业的表现尤为引人注目。在Google Cloud的Top10客户中，中国企业已经占据了两个位置。

接下来，让我们看看两个具体的合作案例，它们展示了Vertex AI平台如何助力企业实现创新和增长。

Snapchat X Gemini 案例：

全球知名的社交媒体平台Snapchat通过利用Gemini API，成功构建了智能助理、内容翻译生成、内容总结以及多模态内容理解等功能，极大地提升了用户体验。

PUMA X Imagen案例：

PUMA通过Imagen API定制生成官网产品图，这一创新举措不仅节省了大量时间，还确保了产品图能够适应不同本地市场和消费者文化的需求。这一策略的实施，使得PUMA在印度市场的点击率提升了10%，显示出了显著的市场效果。

Gemini是由Google DeepMind推出的一款革命性的多模态大型模型，该模型于2023年12月6日正式发布。作为Alphabet旗下人工智能实验室的成果，Gemini能够同时处理文本、图像、音频、视频和代码五种类型的信息，这种多模态能力使得Gemini在理解和处理复杂任务时更加全面和准确，更接近人类处理信息的方式。

继2月份推出的Gemini 1.5模型之后，谷歌在8月进一步推出了Gemini 1.5 Pro，该模型支持高达200万个tokens的上下文长度，能够处理超大量的推理任务。

为了满足更多客户的具体需求，谷歌还推出了具有显著的高速性能和低延迟特点的Gemini 1.5 Flash，以及两款升级版Gemini模型Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。这些升级版模型在多个方面实现了更强的优化和提升：

成本效益：Gemini-1.5-Pro-002的价格降低了50%以上，尤其是对于输入和输出token少于128K的提示。
性能提升：在数学、代码生成、长文本上下文和视觉任务上的性能提升显著，包括在MATH、HiddenMath等基准测试中提高约20%，视觉和代码应用提高2%-7%。
速率限制提高：1.5 Flash和1.5 Pro的速率限制分别从每分钟1000RPM和360RPM提高至每分钟2000 RPM和1000 RPM，使开发者能够更快构建和处理任务。
更快输出和更低延迟：输出速度提升2倍，延迟降低3倍，为更高效的应用场景提供支持。
更简洁的响应：响应风格更简洁、成本更低，输出长度缩短5%-20%，同时在许多话题上减少了拒绝和回避的次数，并保持高有用性。
多模态和长上下文支持：1.5 Pro的200万token长上下文窗口支持处理长文本和多模态任务，如1000页PDF或长视频的内容生成。
更新的过滤设置：模型的默认安全过滤器不再自动应用，开发者可以根据需要定制模型的安全设置。

Gemini和Imagen 3的核心能力介绍

YouTube分析：只需一个URL即可将YouTube视频导入Gemini，解锁多模态洞察。通过提供视频URL，直接从YouTube轻松分析视频，可以在Vertex AI Studio用户界面或通过API使用，与Batch API配合使用，分析大量视频并降低成本，使客户更容易从Gemini的多模态性中获益，非常适合用于收集产品反馈或竞争分析等场景应用。

多模态流媒体API：允许用户直接将音频和视频流传输给Gemini，以实现会话交互。目前仅在Gemini 1.5 Flash 002版本中提供，我们正在添加更多功能，以期最终完善。用户可以流式传输声音和视频至Gemini，并得到由VoiceLM技术支持的声音响应。

Model Garden家族：

Gemini 1.5 Flash & Pro 002：这些模型在所有领域都进行了质量改进，使它们更具竞争力，而Pro版新的价格使其对前沿质量模型具有很高的吸引力。

Gemini 1.5 Pro 2M Context：这是一个行业领先且具有差异化的能力。最新的002模型还改进了它们对长文本上下文的理解。这开启了只有Gemini才能做到的多模态用例。

YouTube分析API：这是谷歌独有的能力，通过简化从YouTube提取视频的过程，提升了开发者体验。

多模态流媒体API：这使得客户能够构建会话式用户体验，并利用Gemini的多模态性和长上下文输出自然声音的语音。

Gemini 1.5 002的动态共享配额：客户将不再需要提出配额增加请求，减少了之前扩展用例的摩擦。

Chirp v2：Chirp v2通过增加流媒体功能，增强了Google Cloud管理的语音模型的能力，这对于实时交互等许多应用至关重要。内置的语言检测和翻译功能也使其更易于使用。

微调和定制Gemini和Imagen 3的路径

为了帮助客户更好的落地大模型项目，Google Cloud推出了专门的的模型调优和定制化服务，旨在帮助用户针对特定用例调整基础模型。Google Cloud主要提供以下四种服务：

1. Prompt Optimizer：专为Google模型设计，用于优化提示词，以提高模型的响应质量和相关性。

2. Supervised fine tuning：适用于Gemini 1.5 Pro和Flash模型，通过监督式微调，用户可以根据自己的数据对模型进行定制，以更好地适应特定的任务或领域。

3. Distillation：为Gemini模型提供的一种技术，通过将大模型的知识转移到较小的模型中，用户可以在保持性能的同时减少模型的大小和计算需求。

4. Model Evaluation：适用于所有模型的服务，通过评估模型在特定任务上的表现，用户可以了解模型的优缺点，并据此做出进一步的优化决策。

这些服务共同构成了一个强大的工具集，使用户能够根据自己的需求和资源，对Google Cloud上的基础模型进行有效的调优和定制。

以下是这些能力的具体介绍：

1、Tune the prompt：

用户可以输入他们的需求以及原始的提示词，Google Cloud后台将依据众多案例所积累的能力，帮助用户生成更优的、经过修订的提示词。

2、Prompt Optimizer：

该工具能够自动围绕用户的提示词及其上下文进行优化。它采用类似于蒙特卡洛方法和AlphaGo技术的手段，为用户生成一系列种子提示词，随后对这些种子进行测试。最终，通过大量实验，工具将为用户提供在测试集上表现最佳的提示词。

3、Supervised Fine Tuning：

在某些业务场景下，如果现有解决方案仍无法满足需求， Google Cloud会提供业界领先的LLaMA技术进行轻量级的微调（Fine Tuning）来辅助客户优化模型。当然需要注意的是，这些模型必须是由Google提供的。用户可以利用几百个自行标注的数据样本，对模型进行适当的微调。该功能同时支持文本、图像和音频的多模态微调，并且用户只需为训练计算付费。

4、Distillation for Gemini：

除了简单的微调之外，Google Cloud还支持大型模型蒸馏技术。包括已经开源的Gemma模型，用户可以在Google Cloud上基于Gemma 2这种特别大的模型蒸馏出一些规模较小的模型，如Gemma 22B、9B、27B等，以适应自己的业务场景。在这个过程中，不需要大型标记数据集，并且可以自我托管目标模型以管理成本和延迟。

5、GenAI Eval Service：

若用户需对不同模型进行比较，包括Google Cloud上不同版本的Gemini以及市面上一些第三方模型，可以利用Vertex AI平台上的通用AI评估服务来对比这些模型在自己的测试集上的表现。

6、Controlled Generation for Gemini 1.5：

该服务旨在提高结构化输出的性能，使AI能够生成易于使用、机器可读的数据，减少繁琐的后处理和解析需求。此外，该服务还增加了结果的可预测性，允许用户可靠地预测AI模型产出数据的格式和结构，例如指定字段属性是否为枚举类型、列表项、可为空或必填等。

除了提供上述能力之外，lmagen 3提供的各种生成能力，达到了非常高的标准，将加速企业创意过程，以适应其广告、营销和协作的自动化需求。

与市面上其他一些文本到图像的开源或商业解决方案相比，lmagen 3提供了更多的选择。例如，针对不同手机和平板厂商的大量使用需求，不再局限于1:1的传统比例，而是提供了3:4、4:3、9:16等多种不同的长宽比规格。此外，在图像中嵌入了DeepMind技术CCID，这使得在生成图像并获取水印后，能够在商业使用中避免许多潜在的版权问题。

此外，其具备非常灵活的编辑能力。lmagen 3图片编辑功能包括新增的“绘画特性”，允许用户通过遮罩或无遮罩技术快速添加或移除对象；以及“背景编辑特性”，让用户可以通过简单提示改变图像背景或调整图像的宽高比。

Few-Shot Customization功能允许用户通过仅提供一张或几张图片来定制Imagen 3，以增强对特定产品、对象或风格的控制。这有助于提高图像的准确性和相关性，确保品牌一致性和产品特征的准确呈现，尤其是在个性化产品图像方面。此外，定制化的图像能够更有效地吸引目标受众，提高转化率，同时降低产品的上市时间和生产成本。

Google Cloud还将多模态理解功能集成到了内部的工具中，该工具的一项关键能力是执行功能调用（Function calling）。如图示，用户上传了一张金门大桥的照片，并询问了当天的天气预报。工具便能够准确地识别出照片的地理位置，进而利用功能调用机制，可能是通过调用一个天气查询API，来获取并提供用户所需的信息，为用户提供实用的响应。

- END -

查看原图 139K