码观 | 共识与非共识:从模型到应用,2024 AI 趋势回首与展望

全文9358字,阅读约需27分钟,帮我划重点

划重点

012024年,人工智能发展在技术范式、多模态能力和应用形态方面取得关键进展。

02OpenAI的o系列模型实现了类人的“系统2”能力,从直觉反应到深度思考的跃迁。

03多模态能力方面,视频生成模型如Sora、Veo2等取得突破,使AI能真正理解和模拟立体世界。

04应用形态上,AI Agent如Anthropic的Computer Use、智谱AI的AutoGLM等展现出强大的自主行动能力。

05此外,AI编程工具如Cursor和Devin实现革命性突破,提升开发效率和工程能力。

以上内容由腾讯混元大模型生成,仅供参考

图片

在硅谷101号公路旁,谷歌总部以南不到十分钟车程的地方,坐落着一座不太起眼的博物馆。从这里向北眺望,能看到Meta的蓝色标志,向南远眺,是苹果的太空环。

在科技巨头的包围中,像一位沉默的长者,注视着周围新旧交替的浪潮,记录人类文明最壮丽的生长。

这里是计算机历史博物馆,在幽静的展厅里,一个古老的算盘和一段打着绳结的麻绳,讲述着人类最原始的梦想:计算与连接。

2024年,这两条线索在人工智能的浪潮中,终于完全交织在了一起。AI不仅在计算,更在创造;不仅在传递信息,更在理解和转化信息。当机器开始展现出类人的思维能力,曾经分立的计算与连接,在大模型中获得了新的统一。

这是一个奇特的时刻:计算变成了对话,数据化作了智慧。自ChatGPT发布以来的人工智能的发展,已经远远超出了人类的预期。

我们在年末回望,市场的关注焦点,从去年基础模型能力的提升,到今年模型的落地应用和场景化。AI的能力需要转化为实际的产品和服务,满足用户需求才是核心。这背后,是AI产业经历了从“训练时代”向“推理时代”的转变。

本文将详述我们看到的AI发展三个关键维度可能性,与各位共享:

一、技术范式的革新。当传统的Scaling Law遭遇瓶颈,OpenAI的o系列模型开创了新的道路——从大力出奇迹的“快思考”到“慢思考”训推双管齐下。

二、多模态能力的跃迁。从Sora的视频生成到原生多模态的崛起,再到世界模型的尝试,AI开始真正理解和模拟这个立体的世界。

三、应用形态的重构。AI Agent的突破让行业看到更多可能性——机器人获得自主行动能力的新方向,而AI编程工具的进展,也许预示着人机协作模式的变革。

2024 AI 关键进展时间线

2月

  • OpenAI发布视频生成模型Sora,首次实现高质量文本生成视频,开创AI视频生成新纪元

3月

  • Suno发布V3版本,AI音乐生成方向进入生产力可用状态(production ready)

4月

  • Meta发布高性能开源大模型Llama-3,降低了AI技术的准入门槛

5月

  • GPT-4发布

  • Ray-Ban与Meta合作的智能眼镜销量突破百万

  • 字节上线即梦AI

6月

  • 快手发布可灵

  • Apple Intelligence发布

9月

  • OpenAI发布 o1 预览版

10月

  • Rosetta和AlphaFold算法的研发者因在蛋白质结构设计和预测中的突破性贡献获得诺贝尔化学奖

  • 约翰·霍普菲尔德和杰弗里·辛顿因人工神经网络和深度学习的开创性贡献获诺贝尔物理学奖

  • Anthropic 大模型 Claude 3.5 Sonnet获得“computer use”功能

12月

  • OpenAI 发布 o3 系列模型



1

技术范式的演进

Scaling Law初遇瓶颈

Scaling Law效果放缓是2024年贯穿整年的争论。

Scaling Law(规模定律)指的是在模型预训练中,只要三个关键因素——模型大小、数据量、训练时间(计算量)不断增长,模型性能就能大斜率指数级爆发式提升。足够的规模带来——“涌现”,即自发地产生复杂智能,完成复杂问题的推理、并形成非同分布下的泛化性提升。

图片

相信Scaling Law,是OpenAI的梦幻发展和这一代大模型能力梦幻提升的起点。

而2024年整年,一个争论笼罩着AI界——Scaling Law是正确的,但在现实中,Scaling Law是不是已经触及天花板?

算力需求已经达到惊人规模,xAI正在建设10万卡数据中心;基础设施跟不上发展速度,OpenAI提出的5吉瓦数据中心计划几乎相当于纽约州五分之一的居民用电量;最关键的是,正如OpenAI前首席科学家Ilya Sutskever所言,优质数据已接近极限。而合成数据训练的“近亲繁殖”问题,更可能过拟合导致模型能力的长期衰退。

然而,OpenAI的o系列模型带来了转机。

新的Scaling Law
——慢思考与快思考

人类对AGI的追求,莫不如说是人类对完全创造另一个“人类”的疯狂幻想,而要让模型“思考”,最重要的是“大脑”。研究人员相信,人的思考其实是细微电流通过神经元,因此如果有足够大、足够接近人脑的人工神经网络,它就可以实现人脑的工作——思考。

在人类心理学中,诺贝尔经济学奖得主丹尼尔·卡尼曼提出了著名的“系统1”和“系统2”理论:人类的思维过程分为快速、直觉的“系统1”和缓慢、深思熟虑的“系统2”。

在o1模型出现之前,所有的大语言模型本质上都是“快思考”系统。它们的工作方式是:

  • 一次性生成:输入问题后直接生成答案,类似于人类的直觉

  • 反应线性思维:按照预设的模式直接处理信息,缺乏反思和迭代

  • 信心盲区:难以判断自己答案的可靠性,也无法主动修正错误

这种“快思考”模式,就像一个博览群书但缺乏深度思考能力的学者——知识渊博,反应迅速,但难以进行真正的创造性思维。

在处理日常对话、简单查询等任务时,这种模式运作良好。但当面对需要深度推理的问题时,它的局限性就会显现:缺乏自我反思,无法进行多角度分析,也不具备纠正错误的能力。就像柏拉图所说的洞穴中的囚徒,它们被困在自己的“知识洞穴”中,只能看到现象的影子。

OpenAI的o系列突破的核心在于实现了类人的“系统2”能力——从直觉反应到深度思考的跃迁。多数研究分析者认为,OpenAI通过将Self-Play强化学习与思维链(Chain of Thought)结合,从而使o1模型首次展现出了真正的推理能力。它不再是简单的信息处理工具,而是能够进行自我对话、多角度分析和自我质疑的思考者。在MMLU等权威测试中的持续突破,印证了这一技术路线的有效性。

技术专家普遍认为,这一突破背后采用了两个关键技术:

蒙特卡洛树搜索(MCTS):借鉴AlphaGo的成功经验,通过多路径推理和评估来优化决策质量。

过程奖励模型(PRM):突破传统RLHF仅关注结果的局限,实现对思维过程的精细化训练指导。

曾经惊艳众人的AlphaGo,AlphaZero AI下棋应用,在其背后的方法上就非常倚重蒙特卡洛树搜索方法。

蒙特卡洛树搜索通过四个步骤迭代工作:选择(从根节点开始选择最有希望的行动)、扩展(添加新的可能状态)、模拟(从新节点随机播放直到游戏结束)和回传(将结果反向传播更新节点价值)。在AlphaGo中,MCTS与深度神经网络相结合,使用策略网络来指导搜索,使用价值网络来评估局面,从而更高效地找到最优解。

图片

而平移到大语言模型中,o1很可能是通过一个大语言模型,同时生成多个推理角度,而由另一个大模型作为奖励模型(reward model)来给出打分评价,一定次数后更新大语言模型的权重,记住做得更好的推理方式。

这个可以进行打分评价的模型,就是过程奖励模型(PRM,Process Reward Model)。OpenAI 提出verify step-by-step,对大模型每一步的思考进行正确或错误的反馈,比起基于人类反馈的强化学习(RLHF)只对结果进行反馈,能够给大模型更密集的训练。

图片

此外,技术专家还推测,OpenAI前期还使用了人工标注的思考过程数据。而后期,则利用合成数据的方法训练。结合前面提到的蒙特卡洛树的方法,一个可能性是,找到一个人工标注过的问题,然后使用MCTS树搜索方式去补齐后续推理过程,每个片段跑多次,都变成合成数据来训练AI。

更重要的是,o系列模型重构了训练范式,将GPU资源在预训练、后训练和推理之间做出了更均衡的分配,从传统的9:1:0优化至1:1:1。这种创新不仅提高了算力利用效率,也为突破预训练数据天花板(20-30T)提供了新思路。

随着o1模型的发布,OpenAI也发布了一条新的Scaling Law:随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1的性能能持续提高。

从o1到o3的快速进化,证明了新的Scaling Law的有效

在ARC-AGI测试中,o3模型达到了87.5%的准确率,几乎与人类水平(85%)相当。这意味着在适应未知任务方面,AI已经具备了接近人类的能力。

我们无法通过给GPT-4增加更多计算量,来获得这样的结果。简单地扩大我们从2019年到2023年所做的事情(采用相同的架构,在更多数据上训练一个更大的版本)是不够的。而这一次,OpenAI找到了全新的思路。

o系列模型能够进行自我对话、多角度分析和自我质疑,最终得出更可靠的答案。它不再仅仅是一个信息处理工具,而是开始具备了某种程度的“思考意识”。虽然这距离完全的自我意识还很遥远,但已经展示出了朝着这个方向演进的潜力。

包括Google在内的AI公司,已经都看到这个方向的潜力,正在奋力追赶。而这条路,起码还可以狂奔一整年。

Scaling Law的另一端

参数效率突破

在关注大模型的能力极限的时候,一个容易被忽视的关键进展是,2024年,我们也看到了模型参数效率出现了很强的突破——即随着模型的代际更迭,原本在前一代模型最大参数量的版本才能完成的能力,不断被后一代模型的“轻量级模型”版本追平。通常这样的“轻量级模型”要比“大模型”的版本参数量低1-2个数量级。

比如12月,Google发布的Gemini 2.0 Flash,在重要的基准能力上,直接追平甚至部分超越了Gemini 1.5 Pro,而同时,模型的速度有极大提升。

OpenAI也表示,下一代o3-mini模型的推理能力,能够媲美o1模型——可以说是当前最强的模型。

轻量级模型的代际能力跃升的原因可能是多重的,一个常常为人所提到的原因是,蒸馏技术的使用。

使用知识蒸馏的训练方法,大模型作为教师模型,轻量级模型作为学生模型,轻量级模型通过模仿大模型的行为进行训练。轻量级模型不仅学习任务的真实标签,还学习大模型生成的软标签,能够“站在巨人的肩膀上”学习。

轻量级模型的基础能力越来越强,意味着同样的能力,模型能够越来越快、成本越来越低地实现,这对2025年的AI应用生态可能有着不小的意义。

另一个值得瞩目的进展是,12 月的发布中,OpenAI推出了强化微调技术,使用极少训练数据即在特定领域轻松地创建专家模型。使用几十到几千个高质量数据,微调后的o1-mini模型得分提高80%,能直接反超o1正式版。

使用强化微调,轻量级模型能够通过精选数据的训练,直接超越同代大模型的表现,这对垂直领域的未来的模型应用,也将产生很大影响。

2

多模态能力跃迁

视频生成模型破局

Transformer架构无往而不利

在o系列模型之外,今年最大模型层最大的进展,要数视频生成模型。
年初的Sora演示石破天惊,带动一众模型公司进行追逐。到年底,从字节的即梦、快手的可灵,到Google的Veo2,视频生成已从天方夜谭变为各大模型公司的标配能力。
这一突破源于Sora巧妙结合了扩散模型(Diffusion Model)和Transformer架构,开创性地实践了DiT(Diffusion Transformer)架构,突破了传统CNN的局限:如果说传统的U-Net架构像是“局部的精雕细琢”,依赖于感受野逐层扩大来理解局部特征。那么融入Transformer的新架构则像是具备“全局视野”的艺术家,能够同时关注和协调画面的每个细节。
视频模型的突破,再次印证了Transformer架构的Scaling Law——足够多的数据和足够好的算法模型,就能突破瓶颈。
一年过去,Sora类的视频模型已经不再稀奇,人们关注视频模型的下一步:
首先是物理一致性问题。这点在真正的世界模型能够做好之前,不会有真正的解法。就像大语言模型的“幻觉“问题一样,视频生成模型与现实世界的不一致性似乎难以完全避免。展望2025年,关键或许不在于完全消除这种不一致,而是找到更好的方式与之共存,就像我们已经学会了用RAG等技术来控制语言模型的幻觉一样。
其次是可控性和一致性挑战。要将视频生成真正转化为生产力工具,需要做到production- ready,需要解决诸多问题,比如:如何让人脸在转动中仍然保持观感是同一个人没有变形?如何多个生成片段让人感觉还是同一个人物?如何让视频生成遵循指令?在实际操作中,视频生成的体感还和图片生成的早期类似,需要不断开盲盒,才能选出一个合适的视频。真正解决这个问题,还需要底层模型的进步。
最后是成本问题。目前生成一段5秒视频的成本最低约为1元人民币,意味着能够基于视频生成的C端玩法依然受限,这个价位仍然制约着大规模应用的可能性。
OpenAI 10月份提出sCM(Simplifying Continuous-Time Consistency Models ),已经在生成速度和成本方面有学术探究的进步。2025年,视频生成的成本是否能再降低一个甚至两个数量级,将直接决定新一波AI应用的命运。
原生多模态模型

AI应用的基座已经搭好

2023年,似乎没有太多模型在强调原生多模态这件事——除了从一开始就坚信这件事的Google,从第一代大模型就以原生多模态开始训练。
2024年,原生多模态成为AI架构的主流选择。从OpenAI的GPT-4V到Anthropic的Claude-3V和xAI的Grok-1.5V,行业正从简单的模态叠加向真正的多模态融合迈进。
原生多模态模型突破了传统的模态隔离方案。不同于早期将文本、图像、语音分别处理再组合的方式,新一代模型采用统一的编码器-解码器架构,在预训练阶段就完成了多模态信息的深度融合。这种方案不仅大幅提升了模型的理解能力,更重要的是实现了模态间的无缝转换和互补增强。
具备多模态能力的模型能够处理更复杂的任务。
以GPT-4o的演进为例,其音频处理能力的提升极具代表性:通过语音模式同ChatGPT对话时,GPT-4平均延迟为5.4秒。而由三个独立模式组成的语音模式,也丢失了大量信息,无法直接识别音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
但OpenAI在12月发布的更新,则正式上架了“视频理解”——现在可以和GPT打视频,模型可以直接看懂用户手上的便签,和用户就便签内容进行讨论。
多模态大模型的发展,为AI陪伴、AI教育、AI硬件和应用生态带来了新的想象空间。
对于陪伴类应用而言,单单是可以随时打断这一个功能,带来已经是绝对的体验提升。而加上语音语调?与AI的社交,绝对是未来社会无可逃避的话题。
AI眼镜已经先于多模态模型,再度热了起来,连Google也重启了眼镜项目。新的摄像头能力,新的芯片,新的AI组合起来,当有天模型能够实时理解视觉信息并与用户进行顺场地多模态互动时,“永远在线的AI助手”可以期待了。
世界模型

物理世界的数字映射可能

想象一个画家和一个建筑师的区别:画家可以在画布上创造美,但不必遵循物理定律;而建筑师设计的每一笔,都必须考虑重力、材料强度、空间结构。这就是目前视频生成和世界模型的本质区别。
世界模型的研究由来已久,尤其是AI三巨头中的Yann Lecun。但今年,第一次让人们看到了大进展的,源自李飞飞的空间智能首秀——单图就能生成3D世界,3D世界遵从物理规则,可进行交互。
李飞飞如何做到这一点,目前仍然不能完全确定,但可以确定的是,行业在2024年一年,在AI 3D生成领域,有了很大的进展。高斯喷射、One-2-3-45等工作,极大地加速了AI 3D生成的进展。而通过对3D物体的生成,所构建出的世界,再进行降维的视频生成,生成的视频,自然符合物理世界的规律,生成的世界也可交互。
这些进展对具身智能领域具有革命性意义。和任何AI训练一样,具身智能——也就是机器人的智能,想要变得更聪明,也需要大量数据。
传统上,训练机器人需要在现实世界收集大量数据,这个过程极其昂贵且效率低下。这些数据要采集自现实世界,比如使用动作捕捉设备遥操作驱动机器人进行操作,常规的操作是配备一到两人,一个机器人,一套动捕装备和一个计算机,还需要大量的时间投入。
而世界模型开启了一个新的可能:在虚拟世界中预训练机器人。这个虚拟世界完全符合物理规律,可以快速生成无限场景,支持并行训练多个任务。这将大幅降低试错成本。这不仅加速了机器人的学习过程,也为实现更复杂的机器人行为打开了可能。
我们或许会在接下来几年看到,具身智能突然出现像过去语言模型、视觉模型得到大量数据后出现的跨越式发展。
这种进步正在催生新的应用可能:更自然的人机交互界面、更安全的机器人控制系统、更高效的虚拟训练平台。在制造业、虚拟现实、机器人技术等领域,世界模型都可能带来革命性的变革。
世界模型也在改变AI理解和交互世界的基本方式,从表面特征的识别提升到深层物理规律的理解,从静态的判断发展到动态的预测,从单一模态扩展到多维度感知。模型开始真正理解和模拟这个世界的运行规律,这或许是通向真正“人形机器人”的关键一步。

3

应用形态重构

Agent
最接近魔法的AI术
人工智能的发展历程中,Agent(智能代理)一直是最令人着迷的概念之一。Agent技术在2024年实现了从概念到实践的关键突破。
想象一下,当你对着手机说:“帮我给同事的朋友圈点赞”,AI就能识别屏幕,找到相应的按钮,完成操作。这不再是简单的语音助手,而是一个能真正理解和执行复杂指令的数字伙伴。
这种进化令人惊叹,因为它展示了AI不仅能“听懂”,还能“思考”和“行动”。它会分析任务、规划步骤、选择工具,甚至在遇到问题时及时调整策略。这种能力让AI从一个被动的响应工具,进化成了一个主动的问题解决者。
2024年,这样的场景从概念变为现实。Anthropic的Computer Use、智谱AI的AutoGLM,以及Google的Gemini 2.0,都展示了AI Agent的突破性进展。
这些能力,在理论上,并不难实现。大模型可以识别屏幕中的像素点,通过足够多的训练数据,就可以理解朋友圈点赞是什么样的UI,调用系统工具,进行操作。但实际上,在过往,类似的Agent的能力,成功率并不高,泛化能力也不够强。
训练模型只识别微信的UI容易,而所有App的UI都能识别则很难。同时模型进行自主操作也是难点——或者模型要成功控制无数标准化的工具,或者模型可以完全接管系统权限,直接模拟点击。
这种接近成型的工程化的Agent核心在于四个关键能力的进展:
  • Long horizon task长期任务执行:就像一个称职的项目经理,Agent现在能够处理更复杂、跨度更长的任务。它不仅能够将大任务分解成可管理的小步骤,还能在执行过程中保持清晰的目标导向,适时调整策略。
  • 多模态理解:Agent不再局限于单一的交流方式。它能同时理解文字、图像、声音,就像人类一样通过多种感官来理解世界。这种全方位的感知能力让它能更好地理解环境和任务上下文。
  • 记忆与行动:通过先进的记忆机制,Agent能够像人类一样积累经验,从过去的交互中学习。它不仅能记住之前的对话,还能记住操作步骤和效果,这让它的行动更加精准和高效。
  • 自适应学习:最令人惊叹的是Agent的学习能力。它能够从每次交互中吸取经验,不断完善自己的策略。这种进步不是简单的数据积累,而是真正的“智慧成长”。

在技术层面,AI Agent的发展出现了两条技术路线:一是以自主决策为核心的LLM控制流,二是以工作流(Workflow)编排为重点的工具集成系统。前者代表了AGI的探索方向,后者则加速了AI落地应用。
特别值得关注的是Anthropic提出的MCP(Model Context Protocol),在其官网,Anthropic说2025年将是 Agentic 系统年。
MCP的本质是一个通用接口协议,它试图解决一个根本性问题:如何让AI模型能够以一种标准化、可扩展的方式与外部世界交互。在传统方法中,每添加一个新工具或数据源,都需要重新设计接口和提示词。MCP则提供了一个统一的抽象层,将所有外部资源(工具、API、数据库等)抽象为“上下文提供者”(Context Providers),使得模型能够自然地使用各种工具和访问各类数据。
用一个比喻来理解:想象一个刚来到陌生城市的人。他需要完成各种任务:找住处、办手续、买日用品。
传统方法把每个工具都当作独立的、需要专门学习的对象,初来乍到的旅人,需要提前了解每个具体地点、每个部门的具体流程、每家商店的具体位置。这就像传统的AI系统,需要为每个工具、每个API预先定义详细的调用方式,必须记住“按A键→选择B菜单→点击C选项”这样的固定流程,而且一旦换个软件和界面就需要重新学。
而MCP的理念是:工具应该适应AI的认知方式,而不是相反。就像人类可以用统一的认知框架来理解和使用新事物,AI也应该能够用一致的方式理解和使用各种工具。在说出“我想做什么”之后,不是教AI“怎么用工具”,而是让AI理解“要做什么”,然后自己去找合适的工具和方法。
AI不应该把每个工具当作孤立的知识点,而应该建立知识间的联系,举一反三,触类旁通,积累经验,提升效率。
这就是MCP的核心理念:让AI更像一个能理解目标、会自主思考的助手,而不是一个只会按固定步骤执行的工具。
如果行业能进一步在通用性上推进,那AI Agent,或许会远比我们想象地更快到来。向手机发出指令,就能直接给某个特定人点赞朋友圈,也会完全重构我们的软件生态。

AI编程工具的革命性突破

从Cursor到Devin

今年,投资 AI 人民币和美元的风格差异在加大,在国内需要更讲究技术迭代的训练效率(因为资源是有限的),在美国更重视倾其所有去探索技术的未知领域;映射到应用上,国内保底基于全球 SOTA 开源模型的技术水平花更多时间探索应用、产品做得比较丰富,而美国因 API 生态的完整和使用者习惯,产品更为简明。
总体而言,AI应用的商业化速度,超出预期,但其估值依然远超商业化收入。随之而来的问题是,长期发展是否会碰到老玩家的竞争和用户天花板?套壳AI应用是否有空间?
AI应用落地的重点主要有三:
1)如何构建差异化的AI Native体验,使得用户能更好地与AI交互或协作,这需要同时对AI能力边界和用户场景有深入洞察;
2)如何在快速变化的模型能力下,持续迭代产品,避免在每次的基座模型的迭代中掉队或被基座模型消灭;
3)构建好的模型产品化能力和对应的基础设施,使得应用可以持续收集用户数据以迭代模型。
2024年,AI编程工具领域迎来两个划时代的产品:年末爆火的编辑器Cursor和横空出世的AI工程师Devin。它们以不同的方式,共同预示着软件开发范式的根本转变。
在传统IDE中,AI功能多局限于代码补全等辅助性功能。但Cursor走出了不同的路径:传统的编程需要开发者精确掌握语法规则和API用法,而Cursor则允许开发者用自然语言描述需求。
这种转变的核心在于其对上下文的深度理解能力。不同于简单的代码片段生成,Cursor能够理解整个项目的结构和依赖关系,进行跨文件的语义分析。这意味着它不只是在“写代码”,而是在“理解需求并转化为解决方案”。举例来说,当开发者描述一个新功能需求时,Cursor能够基于项目现有的代码库,提供符合项目架构风格的实现方案。
工程效率层面,Cursor也提供了智能的代码重构建议,能够自动诊断和修复常见错误,甚至可以基于代码自动生成文档。
开发者的注意力可以从语法细节转移到业务逻辑本身。这不仅提升了专业开发者的效率,更为非专业开发者打开了编程的大门。
如果说Cursor代表了人机协作编程的最佳实践,那么Cognition Labs发布的Devin则展现了AI独立开发的未来图景。后者能独立完成从需求理解、方案设计到代码实现的全流程,展现出前所未有的工程能力。
Cursor需要实时跟进、高频反馈,从结果来说是提升编程效率。而Devin则类似一个“可以放养的实习生”,它可以独立完成任务,自主规划开发路径、处理环境配置和依赖关系、在遇到问题时能自主诊断和修复。
在官方测试中,Devin成功完成了82%的实际工程任务,这个成绩远超此前任何AI系统。
不过,Devin是Slack- based的工作流,而不是一个集成开发环境(IDE)。
也许,将Cursor的人机协作优势与Devin的自主开发能力相结合,可能就是未来AI编程工具的理想形态。
AI不再只是开发工具,而是正在成为开发者的智能搭档,甚至是独立的开发力量。从最具逻辑性的编程领域开始,这种转变可能发生在各行各业。
但我不确定,相比500美元起/月的Devin价格,也许人类会更喜欢一个真实的实习生。或许未来摆在人类面前的问题,不是如何创造另一个“人”,而是如何面对人类自身的处境。
在本文撰写及采访过程中,有多位AI应用的开发者和探索者,表达了对AI能力的惊叹和对后AI时代的人类处境的思索。仿生人会梦见电子羊吗?叠加复杂宏观因素,钟型分布的人类社会,是否会走向两极?对于新的技术,在恐惧与兴奋之间,我们擅长用热情包裹期待,很难讲我们更了解未来还是更了解现在。
这段时间,我们也在街头随机采访,询问普通人眼中的AI:

我想起100年前葡萄牙诗人费尔南多·佩索阿的诗:
关于自然的所有观点
从不曾使草生长使花开放。
关于事物的所有知识
从不曾像一个可以拿在手里的东西;
如果科学想追求真实,
什么科学比没有科学的事物的科学更真实?
我闭上眼睛,躺在坚硬的大地上
大地如此真实,甚至我的后背都能感到。
我不需要理——我有肩胛骨。

特别感谢:
  • AI布道师、腾讯青藤AI及全球化项目经理 余一
  • 读书人、Prompt布道师 李继刚
  • 星贤文化创始人、AIIP《山海奇景》制作人 陈坤
  • 及其他匿名AI探索家
图片
图片