谷歌Gemini 的出现或将打破现有大模型格局。
来源|多知网
作者|王上
图片来源|Gemini
12月6日,谷歌宣布将推出其认为规模最大、功能最强大的人工智能模型Gemini(双子座),试图超越OpenAI。尤其是Gemini的演示视频在全网刷屏,引发热议。不过,评论两极分化。
即便如此,谷歌母公司Alphabet股价周四大涨超过5%,报收每股136.93美元。
谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在一份新闻稿中表示:“这是令人难以置信的势头,然而,我们才刚刚开始触及可能性的表面。这个新时代的模型代表了我们作为一家公司所做出的科学努力之一。”
谷歌 DeepMind 产品副总裁 Eli Collins 在新闻发布会上表示,这是第一个在解决数学、物理、历史、法律、医学和伦理等某些基准方面超越人类专家的人工智能模型。
谷歌称Gemini是多模态的,即可以同时识别视频、图像、文本和语音。不过, Gemini 暂时只会以文本、语音或代码形式回复。
根据视频演示,Gemini与ChatGPT最大的不同是,可以在线上和线下进行多模态的交互。在此之前,各大模型的多模态并未完全实现。
DeepMind创始人、Google DeepMind首席执行官Demis Hassabis接受《连线》杂志采访时提到,Gemin是“原生多模态”,而其他大模型是“近似多模态”。意思是“Gemini从一开始就是多模态的训练,而其他模型是视频、图像、文本和语音等单独的模型,然后拼装到一起。”
在视频演示中,工作人员在纸上画了一只蓝色的鸭子,Gemini马上能识别出是一只鸭子,但它很快说这只鸭子的颜色不真实,然后,它还给出了“鸭子”在全球的不同发音,包含英语、法语、中文等语言的发音。Gemini还展示了在杯子转换游戏中追踪球,识别手影戏手势,重新排列行星素描等。
如果Gemini能实现多模态交互,那么对教育来说将极为便利。比如让Gemini识别数学作业,它能说出对错,相当于及时批改,也能对数学题目进行讲解。
在一个视频演示中,谷歌展示了如何使用 Gemini 来帮助完成物理作业,逐步解决工作表上的问题,并指出已填写答案中可能存在的错误。
不过,根据美国科技媒体TechCrunch今天的报道,称Gemini的演示有剪辑的成分,作者认为Gemini的反应速度太快了。对此,谷歌回应称,“这个视频展示了Gemini的真实输出,但我们对演示进行了一些剪辑。”
也就说,谷歌演示了Gemini的技术和未来趋势,但是,目前,Gemini的使用体验暂时还没有视频展示的那么流畅。
根据谷歌介绍,Gemini将包括三种不同的套件:
1)Gemini Ultra,功能最强大,适用于高度复杂的任务。
2)Gemini Pro,适用于多种任务。
3)Gemini Nano,适合想要构建 Gemini 支持的应用程序的 Android(安卓) 用户。例如,借助 Gemini Nano,人们现在可以总结使用 Pixel 8 Pro 手机上的录音机应用程序进行的录音(但仅限英语)。
Eli Collins 强调,在 30 项衡量图像理解或数学推理等能力的基准测试中,Gemini Ultra 性能“远远超过”其他最先进的模型。
当前,谷歌正在分阶段推出 Gemini,谷歌的人工智能聊天机器人Bard 已经开始使用 Gemini Pro 的微调版本,为聊天机器人有了更先进的推理和理解能力以及其他功能。Gemini Pro 支持的 Bard 仅提供英语版本,在 170 多个国家/地区可用。谷歌表示,巴德将于明年与 Gemini Ultra 整合。在接下来的几个月中,该公司将在其他应用程序中添加 Gemini,包括搜索、Google Ads 和 Chrome 浏览器。
谷歌 Bard 的副总裁 Sissie Hsiao 在新闻发布会上表示,Gemini Pro 在8 个行业基准测试中的 6 个中优于 GPT-3.5 。Google 最先进的模型 Gemini Ultra 在八项基准测试中的七项中击败了较新的 GPT-4。
不过值得警惕的是,大模型有一个问题是会产生幻觉,指的是一些人工智能模型在面对某些输入时,会生成不准确、不完整或误导性的输出。Gemini可以避免这个问题吗?谷歌 DeepMind 产品副总裁 Eli Collins 在新闻发布会上说:“大模型仍然会产生幻觉。”
一年前,OpenAI 发布ChatGPT后,科技巨头们纷纷推出自己的聊天机器人和大模型,以与这家人工智能初创公司竞争。谷歌最近对 Gemini 的评估表明 OpenAI 的竞争对手正在迎头赶上。
可以看到,全球大模型军备竞赛愈演愈烈。谷歌Gemini 的出现或将打破现有大模型格局。