Google Cloud中的生成式AI:最新进展一览

通过主题演讲、圆桌论坛、实践工作坊、互动展览、播客马拉松和晚宴派对等丰富多彩的活动形式,非凡资本为参与者打造了一个全面而深入的AI行业交流盛会。
峰会现场,Google Cloud 资深机器学习架构师王顺博士向与会嘉宾分享了《云上新旅程:生成式AI在GOOGLE CLOUD的最新进展》。
图片
以下是他的演讲精华:
图片

   Google大模型Gemini和Imagen 3相关介绍

图片

随着人工智能技术的迅猛发展,机器学习平台服务(ML PaaS)已经成为企业数字化转型的关键工具。在这样的背景下,谷歌云的Vertex AI平台应运而生,它提供了一个强大的环境,让客户能够训练和部署机器学习模型以及AI应用,并支持自定义大型语言模型(LLM),以满足AI驱动应用的多样化需求。

客户对大模型的需求也与日倍增。近一年来,企业客户在Vertex AI上调用Gemini API的数据量激增了36倍,而Imagen 3的推出更是推动了Imagen API在Vertex AI上的数据增长达到5倍。全球范围内,中国出海企业的表现尤为引人注目。在Google Cloud的Top10客户中,中国企业已经占据了两个位置。

接下来,让我们看看两个具体的合作案例,它们展示了Vertex AI平台如何助力企业实现创新和增长。
Snapchat X Gemini 案例:
全球知名的社交媒体平台Snapchat通过利用Gemini API,成功构建了智能助理、内容翻译生成、内容总结以及多模态内容理解等功能,极大地提升了用户体验。
图片
PUMA X Imagen案例:
PUMA通过Imagen API定制生成官网产品图,这一创新举措不仅节省了大量时间,还确保了产品图能够适应不同本地市场和消费者文化的需求。这一策略的实施,使得PUMA在印度市场的点击率提升了10%,显示出了显著的市场效果。
图片
Gemini是由Google DeepMind推出的一款革命性的多模态大型模型,该模型于2023年12月6日正式发布。作为Alphabet旗下人工智能实验室的成果,Gemini能够同时处理文本、图像、音频、视频和代码五种类型的信息,这种多模态能力使得Gemini在理解和处理复杂任务时更加全面和准确,更接近人类处理信息的方式。
图片
继2月份推出的Gemini 1.5模型之后,谷歌在8月进一步推出了Gemini 1.5 Pro,该模型支持高达200万个tokens的上下文长度,能够处理超大量的推理任务。
图片
为了满足更多客户的具体需求,谷歌还推出了具有显著的高速性能和低延迟特点的Gemini 1.5 Flash,以及两款升级版Gemini模型Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。这些升级版模型在多个方面实现了更强的优化和提升:
  • 成本效益:Gemini-1.5-Pro-002的价格降低了50%以上,尤其是对于输入和输出token少于128K的提示。
  • 性能提升:在数学、代码生成、长文本上下文和视觉任务上的性能提升显著,包括在MATH、HiddenMath等基准测试中提高约20%,视觉和代码应用提高2%-7%。
  • 速率限制提高:1.5 Flash和1.5 Pro的速率限制分别从每分钟1000RPM和360RPM提高至每分钟2000 RPM和1000 RPM,使开发者能够更快构建和处理任务。
  • 更快输出和更低延迟:输出速度提升2倍,延迟降低3倍,为更高效的应用场景提供支持。
  • 更简洁的响应:响应风格更简洁、成本更低,输出长度缩短5%-20%,同时在许多话题上减少了拒绝和回避的次数,并保持高有用性。
  • 多模态和长上下文支持:1.5 Pro的200万token长上下文窗口支持处理长文本和多模态任务,如1000页PDF或长视频的内容生成。
  • 更新的过滤设置:模型的默认安全过滤器不再自动应用,开发者可以根据需要定制模型的安全设置。
图片

   Gemini和Imagen 3的核心能力介绍

图片

YouTube分析:只需一个URL即可将YouTube视频导入Gemini,解锁多模态洞察。通过提供视频URL,直接从YouTube轻松分析视频,可以在Vertex AI Studio用户界面或通过API使用,与Batch API配合使用,分析大量视频并降低成本,使客户更容易从Gemini的多模态性中获益,非常适合用于收集产品反馈或竞争分析等场景应用。

多模态流媒体API:允许用户直接将音频和视频流传输给Gemini,以实现会话交互。目前仅在Gemini 1.5 Flash 002版本中提供,我们正在添加更多功能,以期最终完善。用户可以流式传输声音和视频至Gemini,并得到由VoiceLM技术支持的声音响应。

Model Garden家族:
Gemini 1.5 Flash & Pro 002:这些模型在所有领域都进行了质量改进,使它们更具竞争力,而Pro版新的价格使其对前沿质量模型具有很高的吸引力。
Gemini 1.5 Pro 2M Context:这是一个行业领先且具有差异化的能力。最新的002模型还改进了它们对长文本上下文的理解。这开启了只有Gemini才能做到的多模态用例。
YouTube分析API:这是谷歌独有的能力,通过简化从YouTube提取视频的过程,提升了开发者体验。
多模态流媒体API:这使得客户能够构建会话式用户体验,并利用Gemini的多模态性和长上下文输出自然声音的语音。
Gemini 1.5 002的动态共享配额:客户将不再需要提出配额增加请求,减少了之前扩展用例的摩擦。
Chirp v2:Chirp v2通过增加流媒体功能,增强了Google Cloud管理的语音模型的能力,这对于实时交互等许多应用至关重要。内置的语言检测和翻译功能也使其更易于使用。
图片
   微调和定制Gemini和Imagen 3的路径
为了帮助客户更好的落地大模型项目,Google Cloud推出了专门的的模型调优和定制化服务,旨在帮助用户针对特定用例调整基础模型。Google Cloud主要提供以下四种服务:
1. Prompt Optimizer:专为Google模型设计,用于优化提示词,以提高模型的响应质量和相关性。
2. Supervised fine tuning:适用于Gemini 1.5 Pro和Flash模型,通过监督式微调,用户可以根据自己的数据对模型进行定制,以更好地适应特定的任务或领域。
3. Distillation:为Gemini模型提供的一种技术,通过将大模型的知识转移到较小的模型中,用户可以在保持性能的同时减少模型的大小和计算需求。

4. Model Evaluation:适用于所有模型的服务,通过评估模型在特定任务上的表现,用户可以了解模型的优缺点,并据此做出进一步的优化决策。

这些服务共同构成了一个强大的工具集,使用户能够根据自己的需求和资源,对Google Cloud上的基础模型进行有效的调优和定制。
图片
以下是这些能力的具体介绍:
1、Tune the prompt:
图片

用户可以输入他们的需求以及原始的提示词,Google Cloud后台将依据众多案例所积累的能力,帮助用户生成更优的、经过修订的提示词。

2、Prompt Optimizer:

该工具能够自动围绕用户的提示词及其上下文进行优化。它采用类似于蒙特卡洛方法和AlphaGo技术的手段,为用户生成一系列种子提示词,随后对这些种子进行测试。最终,通过大量实验,工具将为用户提供在测试集上表现最佳的提示词。

3、Supervised Fine Tuning:

在某些业务场景下,如果现有解决方案仍无法满足需求, Google Cloud会提供业界领先的LLaMA技术进行轻量级的微调(Fine Tuning)来辅助客户优化模型。当然需要注意的是,这些模型必须是由Google提供的。用户可以利用几百个自行标注的数据样本,对模型进行适当的微调。该功能同时支持文本、图像和音频的多模态微调,并且用户只需为训练计算付费。

4、Distillation for Gemini:

除了简单的微调之外,Google Cloud还支持大型模型蒸馏技术。包括已经开源的Gemma模型,用户可以在Google Cloud上基于Gemma 2这种特别大的模型蒸馏出一些规模较小的模型,如Gemma 22B、9B、27B等,以适应自己的业务场景。在这个过程中,不需要大型标记数据集,并且可以自我托管目标模型以管理成本和延迟。

5、GenAI Eval Service:

若用户需对不同模型进行比较,包括Google Cloud上不同版本的Gemini以及市面上一些第三方模型,可以利用Vertex AI平台上的通用AI评估服务来对比这些模型在自己的测试集上的表现。

6、Controlled Generation for Gemini 1.5:

该服务旨在提高结构化输出的性能,使AI能够生成易于使用、机器可读的数据,减少繁琐的后处理和解析需求。此外,该服务还增加了结果的可预测性,允许用户可靠地预测AI模型产出数据的格式和结构,例如指定字段属性是否为枚举类型、列表项、可为空或必填等。

除了提供上述能力之外,lmagen 3提供的各种生成能力,达到了非常高的标准,将加速企业创意过程,以适应其广告、营销和协作的自动化需求。
图片

与市面上其他一些文本到图像的开源或商业解决方案相比,lmagen 3提供了更多的选择。例如,针对不同手机和平板厂商的大量使用需求,不再局限于1:1的传统比例,而是提供了3:4、4:3、9:16等多种不同的长宽比规格。此外,在图像中嵌入了DeepMind技术CCID,这使得在生成图像并获取水印后,能够在商业使用中避免许多潜在的版权问题。

此外,其具备非常灵活的编辑能力。lmagen 3图片编辑功能包括新增的“绘画特性”,允许用户通过遮罩或无遮罩技术快速添加或移除对象;以及“背景编辑特性”,让用户可以通过简单提示改变图像背景或调整图像的宽高比。

Few-Shot Customization功能允许用户通过仅提供一张或几张图片来定制Imagen 3,以增强对特定产品、对象或风格的控制。这有助于提高图像的准确性和相关性,确保品牌一致性和产品特征的准确呈现,尤其是在个性化产品图像方面。此外,定制化的图像能够更有效地吸引目标受众,提高转化率,同时降低产品的上市时间和生产成本。
图片
Google Cloud还将多模态理解功能集成到了内部的工具中,该工具的一项关键能力是执行功能调用(Function calling)。如图示,用户上传了一张金门大桥的照片,并询问了当天的天气预报。工具便能够准确地识别出照片的地理位置,进而利用功能调用机制,可能是通过调用一个天气查询API,来获取并提供用户所需的信息,为用户提供实用的响应。
- END -