未经许可不得转载,务必保留原文出处链接和公众号名片
关注本城公众号并设星🌟标,不错过最新精彩内容
文:Web3天空之城·城主
【城主说】科技AI圈之所以备受关注,一方面是科技文明属性爆棚,一方面是有人的地方就有江湖,各种恩怨八卦堪比好莱坞大片。
最近几天是OpenAI Sam Altman高调宣称的“十二日”发布会,每天做一个发布。实话说,越看越无趣。昨天号称大招的Sora发出来,第一波无脑吹的媒体文过后,大家发现其实Sora没有传说中那么惊艳。不能说不好,但一定要说比国产的几个AI视频生成产品好到哪去,又说不上来。
而今天,是OpenAI十二日发布会的第五天,居然只有区区10分钟,去炒了苹果AI+ChatGPT的冷饭,这种旧闻城主甚至连看完的动力都没有。
但另外一边,Google巨头这两天连续王炸,昨天发布了号称史上最大突破,自从90年代至今首次实现错误阈值控制的量子芯片Willow;今天,Google更是推出自家大模型的大版本号升级 Gimini2.0!(关于Google量子芯片和Gimini2.0的主要知识点请见文后)。
昨天左手硬件大招,今天右手软件大招,谷歌明显就在狙击OpenAI,而且非常到位:小道消息称OpenAI已经紧急调整了发布计划,准备把十二日发布会的真正主菜往前放。
(题外话,屋漏偏逢连夜雨,今天ChatGPT突然宕机了整整4个小时,在一个最不应该宕机的时候。目前看来,这个绝对P0级的事故,给最近风雨飘摇的OpenAI再加了个问号,企业级服务,OpenAI究竟行不行?如果是OpenAI的企业级API出现了4个小时的中断,那对OpenAI进军toB雄心的打击会是毁灭性的。)
众所周知,OpenAI的初心是为了阻止Google AI(即当年DeepMind)的一家独大,尽管现在 OpenAI初心早已不在,为了变成营利性公司和创始投资人马斯克撕破了脸皮,但OpenAI和Google对着干的血脉似乎尚存,过去几次发布会,都相当针对的狙击了Google,搞得科技巨头灰头灰脸。
现在距离ChatGPT发布正好是2年,Google曾经因为ChaGPT的火速崛起被OpenAI打了个措手不及,早已退休的联合创始人都不得不回归亲自带队来打AI大战。时过境迁,Google这两天的AI发布颇有逆袭和归来的意味。两大重磅消息向世人宣布,Google依然是AI牌桌上最重要的力量。具备原生多模态能力的Gemini2.0不能说比那个画饼画了很多次的GPT5要好,但至少在当下几个主流AI大模型(OpenAI GPT-4o,Anthropic Claude 3.5 Sonnet,还有马斯克的xAI Grok...等等)的PK中,完全不输。而且这自带的原生多模态,就是一个重要的亮点。
Google以大版本号2.0命名自家新模型版本,在OpenAI造势的十二日发布会的七寸时间发出,信号非常明显。除非OpenAI拿出一个比GPT-4o更牛逼的基础模型,否则,这一招还真不好接。
所以Google这一次,称之为AI界的帝国反击战毫不为过。君子报仇,2年未晚。
最近在AI/大模型圈有一些新的(或许也没那么新)反思,按当下基础大模型训练所需的巨大耗费,一次训练都是上亿甚至十亿的烧钱,很快所有号称做基础大模型的创业公司要么倒闭,要么是骗子,要么转型做应用。基础大模型牌桌能留下的只有寥寥几个国内外巨头。
而在基础大模型的顶级玩家里, OpenAI(GPT模型)和Anthropic(Claude模型)算是两个异类,作为创业公司,崛起得最快,当下企业级运用也最广 - 看一下现在显示所调用API的AI应用,无一例外都默认支持GPT或者Claude。这两家都拿到了数十亿美金的融资,应该足够支撑完成下一代大模型的训练。
但然后呢?大模型最大的问题是,现金流收入恐怕无法支撑一代大模型的训练,更别说一次又一次的训练迭代了。
只有几个科技圈巨头,国外就是Google,亚马逊,微软,再加上新入局不差钱的马斯克xAI,可以不计成本的砸钱投入,因为巨头有足够的资金去烧,巨头的目标不是现在赚钱,而是砸钱圈下全球市场,十年之后再赚钱都为时不晚。
当年微软为了XBOX游戏机足足烧了整整十年,才在XBOX360时代立住脚跟。所以对于关系着科技命脉的AI基础大模型,如果说各大巨头没有烧个十年八年的勇气,城主是不信的。
回过来看Google,从被OpenAI打得找不到北,到现在一次狠狠的反击,时间也没有过太久。当然今天好戏才开场,诸位看官不妨关注一下后续几天OpenAI拿出什么来回应。
只是,沉睡的巨龙们已经苏醒,留给小虾米们的时间还有几天?
Google DeepMind 负责人Demis谈Gemini2.0
基于代理的 AI 时代已经来临
在访谈中,Demis Hassabis 多次强调,我们正迈入一个“基于代理的时代”。这意味着未来的 AI 系统将不再是被动地等待指令,而是能够主动地为用户执行任务、进行推理、规划和行动。这将彻底改变我们与 AI 的互动方式,使其成为我们日常生活中的得力助手。
Gemini 2.0 是基于代理系统的强大基石
Google DeepMind 最新发布的 Gemini 2.0 模型系列,将为基于代理的系统提供强大的支持。Gemini 2.0 在性能、成本和延迟方面都取得了显著的进步,例如 Flash 模型的性能与更大的 1.5 Pro 模型相当,但尺寸和速度保持不变。这将使 AI 代理能够在更广泛的设备上运行,并更有效地处理复杂任务。
Project Astra:通用数字助理的未来形态
Project Astra 是基于 Gemini 2.0 的一个重要应用,它代表着 Google DeepMind 对通用数字助理的愿景。Astra 能够实时地看到、听到和理解用户的周围环境,并通过手机或眼镜等设备提供个性化的帮助。 例如,它可以帮助用户找到丢失的眼镜,或者在烹饪时提供食谱建议。
无限上下文和类人记忆
为了使 Astra 成为真正有用的助手,它需要拥有强大的上下文窗口和内存能力,以记住用户曾经见过的一切,并理解用户的偏好和目标。DeepMind 正在努力实现有效无限的上下文窗口,并从人类记忆中汲取灵感,只记住重要和显著的事情。
AI 伴侣的伦理挑战
随着 AI 系统变得越来越复杂和强大,人们可能会过度依赖 AI 关系,这引发了关于 AI 伴侣社会影响的伦理问题。Hassabis 认为,我们需要社会科学家、伦理学家等多方共同评估这些影响,并制定相应的规范和指南。
AI 在游戏领域的巨大潜力
Hassabis 对 AI 在游戏领域的应用充满期待。他认为,AI 不仅可以用于生成整个游戏,还可以用于创建更智能、更逼真的 AI 角色,自动平衡游戏难度,以及开发具有学习能力的智能体。 这些应用将为游戏行业带来革命性的变化,创造出更加沉浸式和富有挑战性的游戏体验。
Gemini产品负责人谈Gemini2.0
作为 Gemini 模型产品负责人的 Tulsi Doshi,今天也在Google官方分享了关于 Gemini 2.0 的关键信息和 Google 对 AI 发展方向的思考。
Gemini 2.0:更强大的多模态模型
Gemini 2.0 不仅仅是 1.0 的升级版,它体现了 Google 对 AI 模型多模态化和实用化的追求。
多模态能力的飞跃: Gemini 2.0 原生支持多模态输入和输出,可以理解和生成图像、音频甚至代码。这使得 AI 应用的可能性大大扩展,例如可以根据图像内容进行更精准的搜索,或者用 AI 生成不同风格的音乐。
强调实用性和速度: Gemini 2.0 中的 Flash 模型在保持小巧体积和快速响应的同时,性能可与更大的 1.5 Pro 模型媲美。这意味着开发者可以更容易地将 Gemini 2.0 集成到各种应用中,为用户提供实时且高效的 AI 体验。
原生工具调用:通往智能代理的关键一步
重点介绍了 Gemini 2.0 的原生工具调用能力,这项技术将 AI 模型与各种工具(如搜索引擎、代码解释器等)深度融合,为构建更智能的 AI 代理铺平了道路。
提升事实准确性和效率: 通过原生工具调用,模型可以判断何时需要借助外部工具来获取信息或执行特定任务,例如在回答需要实时信息的问题时自动调用搜索引擎。
更流畅的用户体验: 用户无需手动指定使用哪些工具,模型可以根据上下文自动选择和调用最合适的工具。
构建更复杂的 AI 代理: 原生工具调用让模型可以组合使用多种工具,实现更复杂的任务,例如结合搜索引擎和代码解释器来生成数据图表。
谷歌官宣量子计算芯片突破Willow
谷歌在官宣和访谈视频深入探讨了量子计算的优势、量子错误纠正技术、量子比特数量以及量子计算的商业应用前景等重要议题。
量子计算的指数级加速
谷歌强调了量子计算机在特定计算任务上的显著速度优势。以随机电路采样为例,Willow 芯片只需不到 5 分钟即可完成的任务,最快的超级计算机却需要 10 的 25 次方年才能完成。
量子错误纠正技术的突破
谷歌详细介绍了在量子错误纠正技术上取得的突破性进展。Willow 芯片的逻辑量子比特操作已低于关键量子错误纠正阈值,这意味着可以通过量子纠错技术有效地抑制错误,从而提高计算的准确性。
通过增加物理量子比特数量和扩展编码距离,错误率会呈指数级降低。
逻辑量子比特的寿命也显著延长,甚至超过了构成它们的物理量子比特的寿命。
量子比特数量与质量
Willow 芯片拥有比之前芯片更多的量子比特,并且这些量子比特具有更高的质量,即更长的相干时间和更低的错误率。谷歌还强调了量子比特质量的重要性。仅仅增加量子比特数量并不能保证量子计算机的性能提升,高质量的量子比特才能保证更精确和稳定的计算。
商业应用前景广阔
谷歌展望了量子计算在制药、电池和聚变能源等领域的潜在应用。
制药领域: 量子计算可以加速药物研发过程,帮助寻找新的药物靶点和设计更有效的药物。电池领域: 量子计算可以帮助设计更高效、更安全、更持久的电池。聚变能源领域: 量子计算可以模拟聚变反应过程,优化聚变反应堆的设计,加速实现可控核聚变的目标。
谷歌也提到了量子计算在材料科学、金融和人工智能等领域的潜在应用,并指出量子计算技术目前仍处于发展初期,距离大规模商业应用还有一段距离。
量子计算发展路线图
谷歌已经制定了实现“拥有 1000 个逻辑量子位的量子计算机”这一目标的路线图。目前正处于路线图的第三个里程碑阶段,预计在未来几年内取得更大的进展,并有望在未来五年内看到量子计算的早期商业应用。