挑战OpenAI,谷歌新动作!大幅更新生成式AI,推出视频模型VEO 2和最新版Imagen3

每经编辑:毕陆名

谷歌(GOOGL,股价196.66美元,市值24073亿美元)的旗舰AI研究实验室Google DeepMind周一大幅升级其人工智能驱动的内容生成工具,推出了Veo 2视频生成模型和增强版Imagen 3图像模型,挑战OpenAI在AI图像和视频生成的领先地位。谷歌表示,这些更新有望彻底改变创意工作流程,为视频和图像创作者提供更高的真实感和定制化体验。

谷歌介绍,Veo 2是谷歌的视频生成工具,能够生成多样化主题和风格的高质量视频。谷歌在博客中表示,这款模型在真实感方面表现卓越,能够捕捉到人类表情和电影效果等细节。其增强的物理和电影学理解能力使用户能够生成令人惊叹的内容,包括跟踪镜头和广角构图等。

图片
图片来源:视觉中国

例如,Veo 2熟悉电影拍摄语言,用户可以要求某种类型的风格,指定镜头,建议电影效果,Veo 2都会以高达4K分辨率并延长到数分钟的视频长度来呈现。值得注意的是,这一分辨率是OpenAI Sora模型的4倍,视频时长更是其6倍以上。

不过,目前这些优势仍是理论上的。在谷歌的实验性视频创作工具VideoFX中,Veo 2生成的视频被限制为720p分辨率、8秒的长度。(相比之下,Sora的最大输出为1080p、20秒的短片。)

谷歌表示,虽然视频生成模型往往会“幻象化”出不需要的细节,例如多余的手指或意外的物体,但Veo 2在这一方面的表现更为真实,生成错误的频率较低。此外,Veo 2生成的视频包括不可见的SynthID水印,用于标记它们为AI生成的内容,从而减少误用或错误归属的风险。

DeepMind产品副总裁Eli Collins对媒体表示,随着模型逐渐具备规模化使用的准备,谷歌将通过其Vertex AI开发者平台提供Veo 2。

开发者和创作者目前可以通过谷歌实验室(Google Labs)访问该工具,预计到2025年,它将广泛集成至诸如YouTube Shorts等平台。同时,Imagen 3模型在图像构图和细节准确性方面得到了增强,支持从写实到抽象的各种风格,能够生成更丰富的纹理,并更加忠实地回应用户提示。

目前,Imagen 3已经通过谷歌实验室的ImageFX工具在100多个国家上线,全球用户可以试验其尖端功能。

此外,谷歌还推出了Whisk,这是一款结合了Imagen 3和Gemini视觉分析能力的创意工具。用户可以输入图像,生成详细的文字描述、重新混合风格,或设计个性化作品,如数字玩偶或搪瓷徽章。

谷歌介绍,Whisk结合了Imagen 3模型和Gemini的视觉理解与描述能力。Gemini模型会自动为用户的图像生成详细的文字描述,并将这些描述传递给Imagen 3。这一过程让用户能够以有趣的新方式重新混合主题、场景和风格。

图片
图片来源:谷歌官网截图

北京时间12月10日,谷歌宣布研发出新的量子芯片Willow(威洛)。这款计算能力超强的芯片,实现了量子计算领域30年来的关键性突破,5分钟即可完成当今计算机要10尧(10的25次方)年才能完成的任务。研究成果发表在12月9日出版的《nature》杂志上。

消息传出后,量子信息行业一片欢呼,AI圈也大受震撼。

Willow的重大突破表现在两个方面:一是性能也就是计算能力的大幅飞升。5分钟计算量相当于目前运行速度最快的计算机10尧(10的25次方)年才能完成的任务。10²年远高于宇宙的年龄(约130亿年)。5分钟与10²年,这个对比,可见其计算速度的跃升非常之恐怖。

二是强大的量子纠错能力。Willow在量子纠错领域实现的重大进展是,基于可扩展的方形网格,逻辑量子比特数量(目前是105个量子比特)增加,错误率却迅速下降。其从3x3编码量子位扩展到5x5的网格,再扩展到7x7的网格,每次扩展,错误率减半。而且Willow可实时纠错,这使其在短时间内扩展到更高位阶的量子比特(比如1050个)成为可能。

以上两项重大突破,相比性能提升,纠错能力更受科学家关注。

量子芯片是量子计算机的核心。Willow的研发团队是哈特穆特·内文(Hartmut Neven)领导的谷歌量子AI实验室。哈特穆特表示,Willow是向大规模、自纠错量子计算机迈出的一大步,它的纠错能力和超越经典的计算能力使我们更接近一个可提供商业应用的系统,从帮助发现新药,到设计更高效的电动汽车电池,再到加速核聚变和新能源替代的进展。

每日经济新闻综合谷歌、公开信息

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。


每日经济新闻