ChatGPT 图像生成功能获得升级

至顶科技

2025-03-26 10:09发布于北京

+关注

在周二的直播中，OpenAI 首席执行官 Sam Altman 宣布了 ChatGPT 一年多以来首次重大的图像生成功能升级。

ChatGPT 现在可以利用公司的 GPT-4o 模型原生创建和修改图像及照片。GPT-4o 一直是这个 AI 驱动的聊天机器人平台的基础，但直到现在，该模型只能生成和编辑文本，而不能处理图像。

Altman 表示，GPT-4o 原生图像生成功能现已在 ChatGPT 和 OpenAI 的 AI 视频生成产品 Sora 上线，面向该公司每月 200 美元专业版计划的订阅用户开放。OpenAI 表示，该功能将很快向 ChatGPT 的 Plus 用户和免费用户开放，同时也会向使用公司 API 服务的开发者开放。

与其实际替代的图像生成模型 DALL-E 3 相比，具有图像输出功能的 GPT-4o 在生成过程中会"思考"更长时间，以创建 OpenAI 所描述的更准确和更详细的图像。GPT-4o 可以编辑现有图像，包括含有人物的图像——对其进行转换或"修复"前景和背景对象的细节。

据 OpenAI 向《华尔街日报》透露，为了支持新的图像功能，他们使用"公开可用的数据"以及与 Shutterstock 等公司合作获得的专有数据来训练 GPT-4o。

许多生成式 AI 供应商将训练数据视为竞争优势，因此对其相关信息严格保密。同时，训练数据细节也可能引发知识产权相关诉讼，这是公司不愿透露太多信息的另一个原因。

OpenAI 首席运营官 Brad Lightcap 在向《华尔街日报》的声明中表示："在输出方面，我们尊重艺术家的权利，并且我们制定了相关政策，防止生成直接模仿任何在世艺术家作品的图像。"

OpenAI 提供了一个退出表单，允许创作者请求将其作品从训练数据集中移除。该公司还表示，会尊重网站禁止其网络爬虫收集训练数据（包括图像）的请求。

ChatGPT 升级后的图像生成功能紧随 Google 旗舰模型之一 Gemini 2.0 Flash 的实验性原生图像输出功能之后。这个强大的功能在社交媒体上迅速传播——但并非都是好事。Gemini 2.0 Flash 的图像组件似乎缺乏足够的安全限制，允许用户移除水印并创建包含受版权保护角色的图像。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。