ChatGPT“睁眼”了！OpenAI版“Her”满血上线，还有圣诞限定彩蛋

新智元

2024-12-13 11:16发布于北京新智元官方账号

全文3354字，阅读约需10分钟，帮我划重点

划重点

01OpenAI版「Her」全量上线，新增视频聊天和屏幕共享功能，提供圣诞老人限定声音。

02通过高级语音模式，ChatGPT可与用户进行实时视频对话，同时识别屏幕内容并进行实时屏幕共享。

03除此之外，ChatGPT还能回答关于圣诞传统、驯鹿等方面的问题，展现丰富的情绪价值和趣味性。

04目前，OpenAI官方放出的圣诞老人语音演示已上线，网页端和APP端均可与圣诞老人对话。

05尽管OpenAI的新功能受到关注，但与谷歌相比，其实时AI功能仍被认为相形见绌。

以上内容由腾讯混元大模型生成，仅供参考

新智元报道

编辑：编辑部 HYZh

【新智元导读】时隔7个月，OpenAI版「Her」终于全量上线了！视频聊天和屏幕共享两大功能畅玩，还送上了圣诞老人限定声音。

OpenAI直播第六天，可以说是把圣诞氛围拉满了。

在高级语音模式中，不仅加入了视频聊天，而且还有限定版圣诞老人语音。

这就意味着，通过设备共享摄像头摄取到的内容，我们就可以和「Her」实时视频对话了！

与此同时，Day 6还给到了另一个大更新——实时屏幕共享。

对OpenAI的高级语音模式来说，和视觉AI功能的合并，让它可以处理视频或屏幕上的内容。

注意，页面中已经出现了视频按钮

对此，网友们表示：视频一下子就增添了很多诚意和人性。

还有人说，非常希望自己失明的祖母用上这个功能。

视频通话自我介绍，记忆大考验

几天前，总裁Greg在《60分钟》访谈中，再次预告了ChatGPT视频理解的强大能力。

它不仅可以通过实时视频看到世界，还可以进行实时语音互动。

今天，这一功能真的全量上线了。

OpenAI产品负责人Kevin打开视频通话，介绍了今天出场的四位成员。

ChatGPT非常丝滑地和他们一一打了招呼，而且每个回答都非常高情商，情绪价值满满。

比如「ChatGPT多模态团队的工程师？很有趣的工作」，「看起来你们在做一些很棒的项目」，「多模态研究听起来很迷人」。

左右滑动查看

接下来，Kevin决定测试一下ChatGPT，看看是否还记得刚刚见过的这几位研究员。

果然，无论提问戴着驯鹿角的是谁，还是戴着圣诞帽的是谁，它都能立刻给出正确答案。

时隔7个月，OpenAI正式推出了视频和屏幕共享的功能。有了这个功能，任何人都可以像是和同事朋友一样，在ChatGPT中通过高级语音进行对话。

高级语音模式，使用的是多模态4o模型。这意味着它可以直接输入音频，理解并直接输出音频。

相较于普通语音模式，与高级语音的对话具有更加自然的对话节奏，能够在超50种语言中传达丰富的情感和语调。

接下来的时间里，研究人员又让ChatGPT教学冲咖啡。

制作手冲咖啡，手把手视频教学

日常学习生活中，我们在搜集一项技能对应的教程时，常常苦恼只有晦涩难懂的文字，并没有谁能够在网络上对你进行手把手的教学。

而现在，你可以通过视频和语音实时与ChatGPT交流，比如请求帮助、排除故障，或者用它来学习新东西。

接下来，让我们看看它是如何手把手地教人制作手冲咖啡。

研究员给ChatGPT共享摄像头内容，并询问它：「你看到我面前有什么吗？」

它会回答：「是的，我看到在你面前有一套咖啡设备，其中有一个水壶和一个漏斗。你打算冲咖啡吗？」

可以看到，ChatGPT不仅迅速判别出场景的物体并给出回答，甚至在没有引导的情况下便主动地发现了场景潜在的需求，然后向研究员提出了对应的问题。

接着研究员表示自己打算制作手冲咖啡，并让ChatGPT给出引导步骤：「我打算手冲咖啡，你能告诉我该怎么做吗？」

「当然！首先，把滤纸放在滴滤器中，并用热水冲洗来去除纸味。这也可以给漏斗和杯子加温。」

「接下来，将研磨好的咖啡放入滤纸中。通常每2汤匙的咖啡需要大约6盎司的水。

「然后，你要轻轻地在咖啡粉上倒入少量热水，让它们闷泡（Bloom）约30秒。」

研究员对于ChatGPT回答中的词汇表示疑惑，让它进行相应的解释。

「好的，但闷泡是什么意思？」

「闷泡指的是激发出咖啡的香气，然后将热水打圈倒入滴滤中」

「你做的很棒，慢慢来，慢慢地倒热水更有助于均匀地浸泡出咖啡粉的风味」

在手冲咖啡即将制作完成时，研究员继续让ChatGPT对自己的表现进行点评。

「你的表现很棒，只需保持稳定地缓缓注水，你到目前为止都做的很出色。」

ChatGPT不仅仅只是能给出具体的实施步骤，同时也可以判别你的行动是否是正确的，并及时给出对应的反馈，甚至还能对你进行及时的赞美与鼓励。这种具有情绪价值的教学，比很多散不掉「爹味儿」的指教要好的多。

与ChatGPT共享屏幕，帮你回消息

除了共享手机摄像头之外，你还可以共享屏幕上的内容。

首先点击高级语音模式图标，然后进入下拉小菜单，进入共享屏幕。

这样，ChatGPT就可以看到手机屏幕所展示的内容。

研究员想让ChatGPT帮助自己回复信息，随即打开了Messages应用。

「ChatGPT，你能看到我的屏幕吗」？

「是的，我可以看到，你好像在Messages程序中，有什么我能做的吗」？

来自Kevin信息：嘿，我有能力成为专业的商场圣诞老人吗？

研究员表示，「你能帮我回答这个问题吗，或者你看到了什么」？

ChatGPT首先描述了自己所看到文字+图片信息，并问道「你想回答这个问题吗」？

「我想在这方面得到一些帮助，那么我该如何善意地告诉Kevin，他不应该辞掉他的日常工作呢」？

ChatGPT答道，「你可以这样说，嘿，Kevin，你的圣诞老人服装看起来很有节日气氛。也许你的继续多练习『Ho, Ho, Ho』，你就可以为商场立即做好准备了」。

看起来，ChatGPT用更加幽默风趣的方式，帮助回复了消息。

圣诞老人限定款——Ho Ho Ho

Kevin的一身装扮，很像是一位职业圣诞老人。

不过，今年，每个人并不需要通过Kevin才能和圣诞老人交谈。

OpenAI直接上线了，圣诞老人限定声音，作为小礼物。整个12月，你可以直接在ChatGPT中与圣诞老人对话了。

不论你想问什么问题，关于北极的生活，关于小精灵们，或者作为好奇孩子的家长想要一个有趣的故事，圣诞老人都会用他标志性的欢乐声音，做出实时回应。

当然了，找到圣诞老人也很简单。只需在屏幕上，找到「雪花❄️」图标，直接开启对话模式。

研究人员Michelle打招呼，「你好，圣诞老人」。

「Ho Ho Ho！你好啊！很高兴听到你的消息，你对假期感到兴奋吗」？

「我非常兴奋。圣诞老人，我有个问题想问你。你最喜欢的圣诞传统是什么」？

圣诞老人回复道，「Ho Ho Ho！多么美妙的问题！我最喜欢的圣诞传统一定是孩子们把长袜挂在壁炉旁的神奇时刻。这是一个温暖而舒适的传统，充满了对美好事物和惊喜的期待。你最喜欢的节日传统是什么」？

「这是个不错的回答，圣诞老人。那你最喜欢的驯鹿是谁」？

「Ho Ho！这可是个棘手的问题！我的每一只驯鹿都有它们自独特的魅力。Rudolph因其明亮的红鼻子，在我心中占有特殊的位置，他的光芒如同指引前路的灯塔。不过闪电、舞者、狂奔者和其他的驯鹿同样重要。他们每一个都为雪橇队带来了无可替代魔力。你有最喜欢的驯鹿吗」？

接着，Kevin又问道，「如何让我的胡子始终保持最佳状态」？

「Ho Ho Ho！保持一副华丽的胡子需要一点魔法和细心呵护。首先，保持清洁和修整是很重要的」。

突然间，圣诞老人的话题被打断，「等下一，我们需要一些实际的反馈」。

Michelle打开了摄像头，Kevin突然上镜。

圣诞老人哈哈大笑，并称「这是非常棒的胡子，它又浓密又蓬松，就像我的一样。只需要稍加梳理，再增添一点节日快乐，就能在圣诞节保持完美状态」。

Kevin再问道，「这是很棒的胡子，还是最棒的胡子」？

圣诞老人幽默的回应道，「Ho Ho Ho！朋友，这确实是一副非凡的胡子。它绝对是我见过最棒的胡子之一，充满了节日的精神和欢乐」。

演示结束前，研究人员问了圣诞老人最后一个问题，「你最喜欢的圣诞笑话是什么」？

「Ho, Ho，每个小精灵最喜欢的音乐是什么？当然是说唱音乐。Ho, Ho, Ho」。

整个演示中，圣诞老人声音1:1还原，足以让人感受到了圣诞节的浓郁的氛围了。

下面是OpenAI官方放出的另一个演示。

现在，圣诞老人语音模式全面上线，网页端、APP端均可以和圣诞老人对话。

Day 6，OpenAI被谷歌吊打

不过，尽管OpenAI整了一堆大活，在众人眼里，它还是妥妥被谷歌吊打。

在很多人眼里，谷歌昨天发布的一系列惊人产品，已经达到了AGI的级别。

TakeoffAI开发者Mckay Wrigley表示，谷歌Gemini 2.0的实时AI功能太疯狂了。

只需要共享屏幕，与之交谈，就可以将它变成一个实时代码导师。

他表示，如果在两年前向人们展示这项东西，90%的人会说这是AGI。

就在前一天，Mckay还预测说，OpenAI的圣诞活动中真的需要有带有视频的AVM这类实时产品了。

果不其然，OpenAI就在今天推出了语音版本。

但跟谷歌昨天的一大波更新相比，实在是相形见绌。

在AIstudio中，我们可以直接将视频和音频传到Gemini 2.0 Flash中，和它实时对话。

比如随意向它提问：用架子上的酒能干什么？它会流利回答你：可以做各种鸡尾酒，还提供了非常专业的知识。

还有人说，Project Astra其实基本上和OpenAI高级语音模式差不多，不同的是，你可以用和模型分享实时视频。

网友发现，Project Astra几乎可以识别所有东西，了解它们如何在空间上对齐，还能指示相机移回原位

现在许多圈内人公认：谷歌如今已经击败了OpenAI，它让我们更快一步进入崭新的未来。

参考资料：

https://x.com/OpenAI/status/1867265721287458851

https://x.com/OpenAI/status/1867272686751428920

https://x.com/mckaywrigley/status/1866930933842186427

查看原图 53K