AI 行业大事记
2025 年 6 月
联合出品:
Jomy @ 302.AI
南乔 @ ShowMeAI
大聪明 @ 赛博禅心
说明:
① 本期月刊期次 2506(2025年6月),整理和分析的是上个月(5月)AI 领域里有重大意义和影响的各类事件;
② 本期月刊共收录 101 条内容;
③ 月刊分类中的「模型」均指代语言模型;
④ 前往 WaytoAGI 专区查看「赛博月刊」飞书版 → https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc (期待互动👏👏👏)
👀 趋势观察
1. 模型
✦ 基础模型继续小步伐升级,这个月 Claude 4 系列不负众望正式面世,Deepseek R1 也出了小版本更新。
✦ 专注于 Coding 的小模型开始大量出现,并且在一些细分场景超越了大模型。可以预见,垂直领域模型还有非常大的发展空间。
2. 图像
✦ GPT-Image-1 的开源竞争者陆续出现,例如 Hidream-E1 和字节的 Bagel;但最有威胁的还是 Flux-Kontext,在元素一致性上彻底超越了 GPT-Image-1。
✦ 传统图像模型和全模态模型的边界逐渐模糊,GPT-Image-1 的神奇能力也不再是独家专有。
3. 视频/数字人
✦ 这个月最兴奋的进展来自 Google Veo3,第一个可以原生生成人物对话的视频模型,让 AI 视频不再是哑剧。
✦ 开源视频模型在功能上逐渐追赶闭源模型,例如主体参考、元素编辑等等,开闭源的差距在逐渐缩小。
✦ 基于开源视频模型的快速发展,数字人领域的进步也比较明显。数字人现在已经不再是对嘴型,而是根据主体参考重新生成的完整视频。
4. 音频
✦ 音乐生成领域,闭源模型 Suno 还在持续领先,开源模型也在慢慢追赶,但是至今开闭源还有比较大的差距。
✦ 文字转语音(TTS)赛道已经没有太多创新,大家都是 90 分往 95 分努力,未来卷的应该就是性价比了。
5. 3D
✦ 3D 领域开始被模型公司投射注意力,背后应该是因为 3D 建模离商业化路径很短,比较容易产生收益。
✦ Tripo 意识到了只有模型没有应用是不够的,开始亲自下场做原生 AI 3D 应用,直接提供端到端的服务。
6. 机器人
✦ 通过一场机器人拳击赛就能看出,头部机器人公司对于机器人的动作控制已经比较成熟。
✦ 至于如何让机器人不通过预设的程序,而是自发的学会新的动作,世界模型应该是必不可少的。这个领域应该会随着自动驾驶领域的发展,很快有新的突破。
7. 应用
✦ 应用大的方向主要还是集中在 Coding 和 Agent,没有新的范式出现。
✦ 这个月让人眼前一亮的应用是 Lovart.ai,第一个专注于设计的 Agent 产品,生成结果的可用性也不错。可以预见,各个领域的垂直 Agent 产品会是商业化的一条捷径。
✦ AI 浏览器,会成为大厂之间 Agent 的另一个战场。与其做一个网页版的 Agent,那为什么不进一步做成客户端呢。
8. 新闻/融资
✦ 现在已经很少见到模型公司融资的消息了,模型大战已经结束,应用大战已经开启。
✦ Coding 领域大战基本到了尾声,老大 Cursor 不到半年估值翻了 4 倍,老二 Windsurf 已被 OpenAI 收购。
✦ Agent 领域大战才刚刚开始,如同春秋战国时期,百家争鸣。
🧭 时光机
5 月 1 日
| 模型 |NVIDIA● Describe Anything Model(DAM)多模态模型,为图片和视频的指定区域生成描述(开源)→ 别家都是文字生成图片/视频,这个模型却专注于图片/视频生成文字 📺🖼→📝
| 模型 |Microsoft● Phi-4 推理模型,专注数学与编程等复杂推理任务的小模型(开源)→ 体验下来,不如 Qwen3 🙅♂️
| 模型 |Amazon● Amazon Nova Premier 教师模型,Nova 系列最强版本
| 图像 |HiDream 智象未来● HiDream-I1 图像生成模型 && HiDream-E1 交互编辑模型(开源)→ 相当优秀的国产开源图像模型 👍 可惜风头很快就被月底的 flux-Kontext 给盖过去了😥
5 月 2 日
| 图像 |Midjourney● Omni-Reference 全向参考功能 && MJ 近期重要更新汇总 → 在真正的全模态模型的猛烈攻势下,MJ 所剩的唯一优势可能就是审美了 🧐
| 音频 |Suno● Suno v4.5 音乐生成模型,音质与人声全面升级 → Suno 持续保持领先 🚀
| 新闻 |Sequoia Capital(红杉资本)AI Ascent 2025● 汇聚超 100 位 AI 领军人物,探讨行业未来发展
5 月 3 日(无)
5 月 4 日(无)
5 月 5 日(无)
5 月 6 日
| 模型 |智源研究院● 中文互联网语料库 CCI 4.0,扩展为多语种(开源)
| 模型 |智源研究院 X 南开大学● Chinese-LiPS 中文多模态语音识别数据集(开源)
| 模型 |360● 360Zhinao3-7B 新系列模型升级 && O1.5 推理模型开源 → 没有什么特色,感觉是战略性开源 😐
| 应用 |阿里巴巴● 通义灵码编程智能体上线 → 每个巨头都要做自己的 AI Coding 工具,但是都陷入了同质化的怪圈 💫
| 融资 |OpenAI 斥资 30 亿美元收购编程应用 Windsurf → OpenAI 没有选择自己开发,直接收购了业界老二,是因为老大不肯卖吗 👀
| 融资 |Anysphere(Cursor)完成 9 亿美元融资,估值达到 90 亿美元 → Cursor 估值,每个月都在涨 🚀
5 月 7 日
| 模型 |Mistral AI● Medium 3 多模态模型,高性能、低成本,企业级 AI 新选择
| 模型 |Cognition Labs(Devin)● Kevin-32B 用于编写 CUDA Kernel 的多轮强化学习模型(开源)→ 针对某个细分领域进行后训练的小模型,可以做到「小模型,大效果」🥇
| 模型 |Apple● FastVLM 视觉-语言模型,支持端侧部署(开源)→ 很快就在 WWDC 上见到了这款模型的实际应用,效果不错 👍
| 音频 |阶跃星辰 X ACE Studio● ACE-Step 音乐生成基础模型,消费级显卡可用(开源)→ 实测距离 Suno 还有不小的差距 🎵
| 视频 |HeyGen● Avatar IV 数字人视频生成模型,一张照片+一段文本=逼真的视频 → 与 Hedra 类似,都是用图片生成的数字人 💃
5 月 8 日
| 应用 |阿里巴巴● 夸克「深度搜索」升级 &&「深度研究」上线 → Deep (Re)Search 逐渐成为各家的标配 🔎
| 应用 |魔乐社区● 开放共享的 AI 工具与模型生态平台
| 应用 |Figma Config 2025● Figma 发布 4 项重要更新,Figma Buzz、Figma Draw、Figma Make、Figma Sites
5 月 9 日
| 视频 |腾讯● HunyuanCustom 多模态定制化视频生成模型,保持视频中多主体一致性(开源)→ 人物一致性做的不错,很适合拿来做数字人 👍 就是生成速度很慢 ⏳
| 视频 |Luma AI● Reframe 智能扩展图像视频画面,适配多平台尺寸需求 → 之前 Runway 已经上线了这个功能,现在 Luma 补上了 🎞
| 3 D |Enigma Labs● Multiverse 多人模式游戏模型(全开源)
| 应用 |秘塔AI搜索●讲题功能上线 → 在提升用户体验方面,秘塔的理念极具独创性 👏
5 月 10 日(无)
5 月 11 日(无)
5 月 12 日
| 模型 |Prime Intellect● INTELLECT-2 推理模型,全球首个分布式强化学习训练模型 → 如果分布式能成,训练的门槛将会大大的降低 🎊
| 新闻 |教育部● 发布两项指南,科学规范推进人工智能全学段教育 → AI教育要从娃娃抓起 👶
5 月 13 日
| 模型 |OpenAI● HealthBench 医疗基准测试,评估大模型在医疗健康领域的表现(开源)→ 可以预见,这种高质量的私有数据,会是未来模型差异化的源头 🎯
| 视频 |爱诗科技● Pixverse V4.5 视频生成模型,实现电影级镜头控制 → 继续进步,从而应对可灵的竞争 🎥
| 3 D |昆仑万维● Matrix-Game 可交互视频生成世界模型,推动游戏世界建模(开源)
| 应用 |阿里巴巴● QwenChat 上线网页开发和 Deep Research 功能
| 应用 |Lovart.ai● 首个通用 Design Agent,一句话搞定全链路设计 → 无边画布很适合设计 Agent,用户体验非常不错 👏
| 应用 |Notion● AI Meeting Notes 功能上线,自动转录会议内容并生成结构化摘要 → 会议纪要,真是个刚需的大市场 💰
5 月 14 日
| 模型 |Google● AlphaEvolve 用于算法设计的编程智能体
| 模型 |快手 X 中科院 X 清华大学 X 南京大学● R1-Reward 多模态奖励模型,性能提升 5%-15%(开源)
| 音频 |Stability AI X Arm● Stable Audio Open Small 文本转音频模型,支持移动端快速生成短音频(开源)→ 生成速度是个亮点 ⚡
| 视频 |阿里巴巴● Wan2.1-VACE 视频生成与编辑统一模型,支持全功能生成(开源)→ 把商用模型的秘密都开源出来了 🧐 但生成的视频质量还差点意思 👀
| 3 D |阶跃星辰 X 光影焕像● Step1X-3D 生成大模型,支持高保真可控生成(全开源)→ 阶跃也做 3D 了❗ 3D 这个赛道慢慢开始火热 🔥
| 应用 |面壁智能 X 清华大学● SurveyGO 学术长文本写作工具(开源)→ Long to Long 领域非常不错的实践 👏
5 月 15 日
| 音频 |MiniMax● Speech-02 文本转语音(TTS)模型,音色克隆技术领先全球 → 音色克隆能力很强 🔊
| 融资 |Hedra 完成 3200 万美元 A 轮融资,估值达到 2 亿美元 → 对标 Heygen 🚩
5月 16 日
| 模型 |Windsurf● SWE-1 编程模型,专注于复杂的软件工程任务 → AI Coding 公司推出自己的模型在意料之中,据说蒸馏了不少其他模型的数据 👂
| 图像 |腾讯● Hunyuan Image 2.0 图像生成模型,实现毫秒级响应 → 质量比之前的 sd-lightning 强,适合拿来做提示词测试 👍
| 视频 |Higgsfield AI● Higgsfield Ads 将产品图片转为专业的广告视频 → Higgisfield 对商用需求的把握非常精准 🎯
| 应用 |ElevenLabs● SB-1 无限音效板,可以定制音效的控制面板
| 新闻 |特朗普● 访问中东三国,达成多项大额 AI 交易
5 月 17 日
| 模型 |阿里巴巴● ZeroSearch 强化学习框架,通过模拟搜索引擎提升大模型的搜索能力(开源)
| 应用 |OpenAI● Codex 云端编程智能体,高效处理复杂软件工程任务 → 更偏向专业 Coding辅助,而不是 Vibe Coding 🧐
5 月 18 日
| 新闻 |五源资本● 72 小时 AI 生存挑战,依靠 AI 工具解决生存需求
5 月 19 日
| 视频 |哔哩哔哩● Index-AniSora 动漫视频生成模型,献给二次元世界的礼物(开源)→ 这个模型 B 站做最对味 👀
| 应用 |字节跳动● 火山引擎 MCP Servers 大模型生态广场发布 → 暂时不支持第三方 MCP Server,不够开放 🙅♂️
| 应用 |腾讯 QQ 浏览器● QBot 上线,正式升级为 AI 浏览器 → 浏览器也是 AI 厂商的必争之地 ⚔
| 应用 |Flowith● Neo 云端 Agent 系统,首个「无限」智能体
5 月 20 日
| 模型 |字节跳动● Seed-Coder 轻量级编程模型,字节的前沿探索成果(开源)
| 机器人 |智元机器人●EVAC 基于机器人动作序列驱动的具身世界模型 && EWMBench 具身世界模型基准测试(开源)
| 融资 |美图获得阿里巴巴 2.5 亿美元投资,双方达成战略合作 → 阿里投资开始在 AI 应用领域发力 📍
| 模型 |Google I/O 2025● Gemini 2.5 Pro && Gemini 2.5 Flash 模型升级 → Google 彻底打了个翻身仗,全方位领先 👑
| 模型 |Google I/O 2025● Gemma 3n 多模态模型,移动端优化(开源)
| 图像 |Google I/O 2025● Imagen 4 图像生成模型,实现 2K 高分辨率
| 音频 |Google I/O 2025● Lyria 2 音乐生成模型 && Lyria RealTime 交互式音乐生成应用 → 只能生成没有人声的音乐,无法生成歌曲 🎵
| 视频 |Google I/O 2025● Veo 3 视频生成模型,进入音画同步时代 → 第一个可以自动生成人物配音的视频模型,AI视频不再是哑剧 🔊
| 应用 |Google I/O 2025● Flow 电影级影视片段制作工具,集成了 Google 最先进模型
| 应用 |Google I/O 2025● SynthID Detector 识别 AI 生成内容的检测平台
| 应用 |Google I/O 2025● Jules 异步编程智能体,在云端虚拟机中独立执行任务
| 应用 |Google I/O 2025● Stitch 基于自然语言的 UI 设计与代码生成工具
| 应用 |Google I/O 2025●AI Mode 正式登录 Google Search,搜索从此「千人千面」→ 如此庞大的日活下,背后的算力成本应该相当高昂 💸
5 月 21 日
| 模型 |Mistral AI X All Hands AI● Devstral 编程模型,专注于复杂的软件工程任务 → 又一个专注于 Coding 的小模型 👩💻
| 图像 |腾讯● 混元游戏视觉生成平台 && Hunyuan-Game 工业级游戏内容资产生成模型
| 机器人 |NVIDIA● Cosmos-Reason1-7B 面向机器人技术的视觉-语言推理模型(开源)
| 应用 |字节跳动● 飞书知识问答功能上线,整合企业内资源实现智能解答 → 企业内部的 Deep Search 🔎
| 应用 |腾讯● 腾讯云智能体开发平台(TCADP)上线 → 一个类似 Coze 和 Dify 的平台,但是非常简陋,看不出有什么竞争力 ❓
| 融资 |面壁智能完成新一轮数亿元融资 → 全球为数不多专注端侧小模型的企业 🏆
5 月 22 日
| 音频 |Kyutai● Unmute.sh 语音系统,可以为任何文本大语言模型添加语音功能(即将开源)
| 应用 |Mistral AI● Document AI 高精度文档解析工具,成本低至 1 美元 2000 页 → 一个基于 OCR 模型 API 实现的简单应用 💻
| 应用 |昆仑万维● Skywork Super Agents 天工超级智能体上线 → 又一个类 Manus 应用,做 PPT 尤其出色 🧐
| 融资 |LMArena● 完成 1 亿美元种子轮融资,估值达到 6 亿美元
| 融资 |OpenAI以 65 亿美元收购 io,进军 AI 硬件领域
| 新闻 |Microsoft Build 2025● 迈向 AI Agent 时代,构建 Open Agentic Web 成为新愿景
5 月 23 日
| 模型 |Anthropic● Claude Opus 4 和 Claude Sonnet 4 推理模型,专注持续性推理与复杂任务执行 → 重夺编程模型之王的宝座 👑
| 模型 |上海人工智能实验室● 书生·思客(InternThinker)围棋推理模型 → 用 LLM 下围棋,有一种奇特的复古感 🧭
| 模型 |字节跳动● Dolphin 文档解析模型,高效精准处理复杂文档(开源)→ 非常利好本地化 RAG 🔎
5 月 24 日(无)
5 月 25 日
| 机器人 | 《CMG世界机器人大赛·系列赛》机甲格斗擂台赛,展现高难度格斗技术 → 比上个月马拉松比赛的机器人,看起来强多了 🤖
5 月 26 日
| 模型 |红杉中国● xbench 基准测试,聚焦真实场景效用与垂类智能体评测(开源)
5 月 27 日
| 音频 |字节跳动● 豆包·语音播客模型(预告)&& 扣子空间 Agent 播客制作功能上线 → 语音播客模型的语气非常真实自然,中文领域最佳 👑
5 月 28 日
| 模型 |Mistral AI● Codestral Embed 代码嵌入模型,性能超越主流方案 → 连 Embedding 模型都有为代码设计的了,Coding 赛道真的火🔥
| 图像 |字节跳动● BAGEL 统一多模态理解与生成模型(开源)→ 人物一致性比 gpt-image-1 强 👍 但其他都远远不如 👎
| 视频 |腾讯● HunyuanVideo-Avatar 语音数字人模型,图像+音频=说话&唱歌的数字人(开源)
| 3 D |Odyssey●实时 3D 互动视频技术(研究预览),延迟仅 40 毫秒,成本低至 1 美元/小时
| 机器人 |北京人形机器人创新中心牵头制定全球首个《人形机器人智能化分级》→ 人形机器人的发展,有一个标准了 🤖
| 应用 |昆仑万维● Opera Neon 智能 Agent 浏览器,开启内测
5 月 29 日
| 模型 |DeepSeek● DeepSeek-R1-0528 推理模型「小升级」,思考更深,推理更强 → 还是基于 deepseek-v3 旧版训练的,并不是基于最新的 v3 训练的 🧐
| 视频 |快手● 可灵 2.1 && 可灵 2.1 大师版上线,理解力与生成速度全面升级
| 融资 |Grammarly 完成 10 亿美元融资,加速 AI 产品升级与平台化转型 → 一个看似简单的语法纠错需求,也可以生长出巨头 🚀
5 月 30 日
| 模型 |字节跳动● Web-Bench 编程能力基准测试,评估模型在复杂 Web 全栈任务中的表现(开源)→ 2.1 终于有普通版了 🎊 性价比不错,可以大规模商用了
| 模型 |小米● Xiaomi MiMo-VL 多模态大模型(开源)→ 小米开始在大模型领域发力,表现都比较亮眼 💡
| 图像 |Black Forest Labs● FLUX.1 Kontext 图像生成与编辑模型,角色一致性能力亮眼 → 解决了 gpt-image-1 人物一致性的问题,图像编辑领域的 New King 👑
| 音频 |ElevenLabs● Conversational AI 2.0 企业级语音 Agent 平台
| 应用 |Perplexity● Labs 智能体创作平台,一站式生成报告、演示与可视化项目
5 月 31 日
| 3 D |VAST●Tripo Studio 工作站上线,实现一站式 3D 建模 → 从模型到应用,Tripo 要打造 3D 领域的完整生态 🥳
| 应用 |Google● Gemini App(应用)近期重要更新汇总
| 应用 |OpenAI● ChatGPT 近期重要更新汇总
5 月 1 日
NVIDIA
Describe Anything Model(DAM)多模态模型,为图片和视频的指定区域生成描述(开源)
Describe Anything Model(描述一切模型)是 NVIDIA 推出的一款多模态模型,能为图像或视频中的指定区域生成精准的描述。
该模型支持用户通过点、边界框、涂鸦或掩码等多种交互方式灵活标注目标区域,多样化的输入机制不仅提升了操作的便捷性,还确保了描述结果与用户关注区域的高度匹配。
使用入口:开源;前往 HugingFace 获取模型/数据/基准(huggingface.co/collections/nvidia/describe-anything-680825bb8f5e41ff0785834c);前往 Github 获取代码(github.com/NVlabs/describe-anything)。
权威信源:https://describe-anything.github.io
> “业内解读(By Jomy)→ 别家都是文字生成图片/视频,这个模型却专注于图片/视频生成文字 📺🖼→📝”
Microsoft
Phi-4 推理模型,专注数学与编程等复杂推理任务的小模型(开源)
Phi-4 推理模型家族是 Microsoft Phi 系列最新成员,通过技术创新实现小参数量模型的高效推理能力,尤其擅长解决数学、编程及科学领域的复杂问题。本次开源的三款模型针对不同应用场景进行了专项优化:
Phi-4-reasoning:Phi-4 监督微调版本,参数量 14B,在复杂推理任务中能与更大尺寸的模型相媲美。
Phi-4-reasoning-plus:Phi-4-reasoning 增强版本,采用强化学习进一步优化,提供更强的推理时计算能力。
Phi-4-mini-reasoning:基于 Transformer 架构深度优化了数学推理能力,专为计算资源有限或低延迟需求场景打造。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/microsoft/Phi-4-mini-reasoning)。
权威信源:https://azure.microsoft.com/en-us/blog/one-year-of-phi-small-language-models-making-big-leaps-in-ai
> “体验下来,不如 Qwen3 🙅♂️”
Amazon
Amazon Nova Premier 教师模型,Nova 系列最强版本
Amazon Nova Premier 是 Amazon Nova 系列模型的最高阶版本,上下文窗口长达 1M Token,能够高效处理深度理解上下文、多步骤规划、跨工具协作等复杂任务。与 Nova 系列中的 Lite 和 Pro 版本类似,Premier 也具备多模态能力,支持文本、图像和视频等模态输入(不包括音频)。
此外,Nova Premier 作为教师模型,还承担着定制化衍生模型的关键角色。基于 Amazon Bedrock 的模型精简功能,企业可以根据需求定制 Nova Pro、Lite 和 Micro 版本模型。
使用入口:前往 Amazon Nova 官网体验(nova.amazon.com);或者前往 Amazon Bedrock 调用 API(aws.amazon.com/bedrock)。
权威信源:https://aws.amazon.com/cn/blogs/aws/amazon-nova-premier-our-most-capable-model-for-complex-tasks-and-teacher-for-model-distillation
HiDream 智象未来
HiDream-I1 图像生成模型 && HiDream-E1 交互编辑模型(开源)
HiDream 陆续开源了两款图像大模型——HiDream-I1 图像生成模型与HiDream-E1 交互编辑模型。
HiDream-I1 基于 DiT 架构,参数量 17B,在图像质量、语义理解及艺术表现方面表现卓越,曾登顶 Artificial Analysis 全球文生图模型榜单。为满足多元场景需求,该模型开源三个版本:完整版 HiDream-I1-Full、开发版 HiDream-I1-Dev 及高效版 HiDream-I1-Fast。
作为 I1 的延伸,HiDream-E1 专注于交互式图像编辑,其核心优势在于强大的自然语言交互能力。用户仅需输入简单指令,即可实现图像修改、内容添加等复杂操作,大幅降低专业级创作门槛。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/collections/HiDream-ai/hidream-i1-67f3e90dd509fed088a158b3);前往 Github 获取代码(github.com/HiDream-ai/HiDream-I1);前往 vivago官网体验(vivago.ai/studio)。
权威信源:官方介绍 | 赛博禅心
> “相当优秀的国产开源图像模型 👍 可惜风头很快就被月底的 flux-Kontext 给盖过去了😥”
5 月 2 日
Midjourney
Omni-Reference 全向参考功能发布 && MJ 近期重要更新汇总
Omni-Reference 是 Midjourney V7 版本引入的一项新功能,允许用户将参考图像中的特定元素(如人物、物体、车辆或非人类生物)无缝融入新生成的图像中,实现高度风格化与个性化定制。、
Omni-Reference 核心参数为 --ow(Omni-Weight),用于调节参考图像对新生成图像的影响强度。参数范围为 0 至1000,默认值为 100。数值越高,参考元素的特征保留越显著;数值降低则减弱其影响力,使生成结果更贴近自然随机效果。
使用入口:前往 MidJourney 官网体验(midjourney.com)。
权威信源:https://www.midjourney.com/updates
Midjourney 自 4 月初发布 V7 新模型后,最近两个月一直在密集更新,以下是模型和产品重要更新的简单介绍:
- V7:最新版本模型,显著提升了图像细节的连贯性与个性化定制能力(4月4日)
- V7 draft mode(草稿模式):支持以 10 倍速度生成低成本的低分辨率草图,成本仅为标准模式的一半(4月5日)
- 图像编辑器升级:支持智能图层编辑和更精细的图像调整(4月18日)
- --weird:生成更具创意或非传统的图像(4月18日)
- V7 升级:提升了渲染速度和图像质量(5月1日)
- --exp:探索高阶特效(5月1日)
- Omni-Reference:角色参考升级版,支持通过上传图片将其精准融合到新作品中(5月2日)
- V7 Fast mode(快速模式):进一步提升了生成速度(5月3日)
- Faster V7:渲染速度提升约 40%(5月30日)
> “在真正的全模态模型的猛烈攻势下,MJ 所剩的唯一优势可能就是审美了 🧐”
Suno
Suno v4.5 音乐生成模型,音质与人声全面升级
Suno v4.5 版本音乐生成模型,在音质、人声表现及功能体验上实现显著突破。新版本通过算法优化,使音乐层次更丰富、细节更细腻,演唱效果更具情感深度,同时将默认生成时长延长至 8 分钟,满足更长篇幅的创作需求。
此次升级,重点引入两大创新功能:一是「智能混搭」,支持用户自由融合不同风格的音乐元素,拓展创作可能性;二是「提示词增强助手」,可自动优化用户输入的文本提示,降低操作门槛并提升生成质量。
使用入口:前往 Suno 官网体验(suno.com),目前仅对 Pro 和 Premier 付费用户开放使用。
权威信源:https://suno.com/blog/introducing-v4-5
> “Suno 持续保持领先 🚀”
红杉资本 AI Ascent 2025
汇聚超 100 位 AI 领军人物,探讨行业未来发展
5月2日,Sequoia Capital(红杉资本)在旧金山举办了第三届 AI Ascent 2025 活动。这场闭门会议汇聚了超过 100 位全球顶尖的 AI 创始人、研究人员和行业领导者,共同探讨了 AI Agent 新商业模式、数据中心建设、垂直应用的潜力、开源的重要性等话题。
权威信源:https://www.sequoiacap.com/article/ai-ascent-2025 | 会议记录的中文版本
5 月 6 日
智源研究院
中文互联网语料库 CCI 4.0,扩展为多语种(开源)
在法国巴黎举行的 GOSIM 全球开源创新论坛上,智源研究院正式发布大型开源文本数据集 CCI 4.0。该数据集从单一语言扩展为中英双语版本,未来还将开源更多语种,为全球大模型研发提供关键数据支持。
此次发布的 CCI 4.0-M2-V1 包含 3 个子数据集,总规模达 35TB,涵盖高质量互联网文本资源,旨在推动人工智能领域的开放创新与合作发展。
使用入口:开源;前往 HugingFace 获取数据(huggingface.co/BAAI)。
权威信源:官方介绍
智源研究院 X 南开大学
Chinese-LiPS 中文多模态语音识别数据集(开源)
在法国巴黎举行的 GOSIM 全球开源创新论坛上,智源研究院正式发布 Chinese-LiPS 中文多模态语音识别数据集。数据集核心优势为多模态数据的规模性与专业性,其中:
音频模态包含 36208 条高质量语音片段,总时长约 100 小时,由 207 位专业讲者在安静环境中录制,确保语音清晰度。视觉模态涵盖两类数据:唇读视频(720P 分辨率)与幻灯片演示视频(1080P 分辨率),二者均与语音内容精准对齐。幻灯片素材由领域专家设计,结构清晰且富含图像与视觉语义信息,辅以专业标注,为多模态关联研究提供可靠支撑。
使用入口:开源;前往 HugingFace 获取数据(huggingface.co/datasets/BAAI/Chinese-LiPS)。
权威信源:https://data.baai.ac.cn/datadetail/Chinese-LiPS | 官方介绍
360
360Zhinao3-7B 新系列模型升级 && O1.5 推理模型开源
360 集团近日升级了自研 7B 参数大模型系列,包含 360Zhinao3-7B、360Zhinao3-7B-Instruct 及 360Zhinao3-7B-O1.5 三个版本。
其中,360Zhinao3-7B-O1.5 作为重点开源版本,在数学、科学等领域的表现尤为突出,同时具备更优的综合性能,还能在端侧应用中发挥广泛价值。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/collections/qihoo360/360zhinao3-67f87dd16d4a93368c4a9c49);前往 Github 获取代码(github.com/Qihoo360/360zhinao3)。
权威信源:官方介绍
阿里巴巴
通义灵码编程智能体上线
通义灵码正式上线编程智能体,从此不再只是「写代码」工具,而是真正能「理解任务」的智能搭档。依托 Qwen3 的强大能力,结合智能体与 MCP 能力,通义灵码可以自动感知项目结构、分析需求内容,并通过调用多种编程工具,帮助开发者高效完成整个编码任务。
使用入口:前往 通义灵码 官网(lingma.aliyun.com)下载 ;体验智能体模式,需在 VS Code、JetBrains IDEs 中,将通义灵码插件升级到 2.5.0 或以上版本。
权威信源:官方介绍
> “ 每个巨头都要做自己的 AI Coding 工具,但是都陷入了同质化的怪圈 💫”
OpenAI
斥资 30 亿美元收购编程应用 Windsurf
媒体报道,OpenAI 以 30 亿美元收购了 AI 编程应用 Windsurf。此次收购的目的是为了强化 OpenAI 在 AI 编程助手市场的竞争力。Windsurf 的技术资源将被整合到 OpenAI 的生态系统中,以推动智能开发工具链的升级,并加速 AI 与软件开发的深度融合。
权威信源:https://www.forbes.com/sites/johnwerner/2025/05/06/its-openais-biggest-acquisition-to-date--but-what-does-windsurf-do
> “OpenAI 没有选择自己开发,直接收购了业界老二,是因为老大不肯卖吗 👀”
Anysphere(Cursor)
完成 9 亿美元融资,估值达到 90 亿美元
媒体报道,Anysphere(Cursor)已经完成 9 亿美元的融资,估值达到 90 亿美元。本轮融资由 Thrive Capital 领投,Andreessen Horowitz 和Accel 等知名投资机构跟投。本轮融资将用于技术研发、吸引顶尖技术人才以及加速商业化进程。
权威信源:https://techcrunch.com/2025/05/04/cursor-is-reportedly-raising-funds-at-9-billion-valuation-from-thrive-a16z-and-accel
> “Cursor 估值,每个月都在涨 🚀”
5 月 7 日
Mistral AI
Medium 3 多模态模型,高性能、低成本,企业级 AI 新选择
Mistral Medium 3 是 Mistral AI 推出的最新多模态模型,在性能与成本之间实现了突破性平衡。该模型在编程、函数调用等专业任务中表现优异,性能可达 Claude Sonnet 3.7 的 90% 以上;同时在图像识别、语音转换等多模态任务中,其表现超越了Llama 4 Maverick 和 Cohere Command A 等领先模型,但 Mistral Medium 3 成本显著更低。
此外,Mistral Medium 3 还针对企业需求提供了全面的定制化功能。企业可通过持续预训练、全面微调等方式,将模型深度融入自身知识库与业务场景。这一设计解决了企业在 API 微调与自部署模型之间的选择难题。
使用入口:前往 Mistral La Plateforme、Amazon Sagemaker、Azure AI Foundry、Google Cloud Vertex 等平台调用 API。
权威信源:https://mistral.ai/news/mistral-medium-3
Cognition Labs(Devin)
Kevin-32B 用于编写 CUDA Kernel 的多轮强化学习模型(开源)
Kevin-32B 核心创新在于多轮强化学习机制,通过多次交互和反馈,使模型能够逐步优化其生成的 CUDA Kernel。这一机制不仅增强了模型对复杂编程任务的理解能力,还确保了生成代码的性能与可读性。
该模型基于 QwQ-32B 模型,通过在 KernelBench 数据集上进行多轮强化学习训练,显著提升了代码生成效率与质量,其推理表现已超越 o3 和 o4-mini 等顶级推理模型。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/cognition-ai/Kevin-32B)。
权威信源:https://cognition.ai/blog/kevin-32b
> “针对某个细分领域进行后训练的小模型,可以做到「小模型,大效果」🥇”
Apple
FastVLM 视觉-语言模型,支持端侧部署(开源)
FastVLM 是 Apple 最新开源的视觉语言模型,具备图像识别、物体计数、手写文字识别及表情符号理解等多项视觉任务处理能力。
为适配移动端场景,苹果特别针对 Apple Silicon 芯片优化了推理效率,并提供了 0.5B、1.5B 和 7B 三种参数规模的模型版本。开发者可灵活选择不同尺寸的预训练模型,或基于开源的 stage2、stage3 微调权重进行二次开发,实现在 iPhone、Mac 等设备上的本地化部署与高效运行。
使用入口:开源;前往 Github 获取模型和代码(github.com/apple/ml-fastvlm);论文(arxiv.org/abs/2412.13303)。
权威信源:https://github.com/apple/ml-fastvlm
> “很快就在 WWDC 上见到了这款模型的实际应用,效果不错 👍”
阶跃星辰 X ACE Studio
ACE-Step 音乐生成基础模型,消费级显卡可用(开源)
ACE-Step(音跃大模型)是阶跃星辰与 ACE Studio 联合推出的一款音乐生成基础模型,参数量 3.5B,专为消费级显卡优化。该模型在生成效率与音乐质量之间实现了出色平衡,仅需 20 秒就能在 A100 GPU 上合成长达 4 分钟的音乐,同时保证了音乐的连贯性、结构完整性和情感表现力。
该模型支持 LoRA、ControlNet 等多种微调方式,能够灵活适配多样化的音乐生成任务,如音频编辑、人声合成、伴奏生成、声线克隆及风格迁移等。这一设计显著降低了音乐类 AI 应用的开发门槛。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/ACE-Step/ACE-Step-v1-3.5B);前往 Github 获取代码(github.com/ace-step/ACE-Step)。
权威信源:https://ace-step.github.io | 官方介绍
> “实测距离 Suno 还有不小的差距 🎵”
HeyGen
Avatar IV 数字人视频生成模型,一张照片+一段文本=逼真的视频
Avatar IV 是 HeyGen 推出的最新数字人视频生成模型,仅需一张图片和一段文本脚本,即可在几秒内生成高度逼真的动态视频。无论是人类、动物、外星人还是素描画,该模型都能精准驱动数字人的面部表情、微表情和手势动作,使视频自然生动。
与传统技术相比,Avatar IV的创新之处在于其对图像输入的高兼容性。它不仅支持正面照片,还能处理侧脸、多角度图像甚至全身视角,生成的数字人更具立体感和动态细节。
使用入口:前往 HeyGen 官网体验(heygen.com/avatars/avatar-iv)。
权威信源:https://www.heygen.com/avatars/avatar-iv
> “与 Hedra 类似,都是用图片生成的数字人 💃”
5 月 8 日
阿里巴巴
夸克「深度搜索」升级 &&「深度研究」上线
阿里巴巴旗下夸克应用,近期对其 AI 功能进行了重要升级。
深度搜索:新版本不仅能理解用户提问,还能主动构建问题分析框架,通过智能信息调取与整合,提供更精准的答案。官方称其为「高搜商」(5月8日)
深度研究:专注于学术和专业领域的研究需求,通过快速解析用户的研究意图,自动检索多源信息并进行智能分析,最终生成结构完整、内容充实的研究报告(5月30日)
使用入口:前往 夸克 官网(quark.cn)下载电脑版,或者手机下载 夸克 App。
权威信源:官方介绍-深度搜索 | 深度研究
> “Deep (Re)Search 逐渐成为各家的标配 🔎”
魔乐社区
开放共享的 AI 工具与模型生态平台
魔乐社区是中国电信天翼云牵头发起的人工智能社区,致力于构建一个开放共享生态的人工智能社区。
平台提供人工智能工具、模型、数据的托管。以模型为例,魔乐社区包含了文本、图像、音频等多模态模型,涵盖从基础模型到针对不同算力环境优化的专项版本,并且已经完成了国产化硬件适配。
使用入口:前往 魔乐社区 官网体验(Modelers.cn)。
权威信源:媒体报道
Figma Config 2025
Figma 发布 4 项重要更新
5月6日至8日,Figma Config 2025 大会在旧金山举办,会上宣布了 Figma 多项新功能,其中与 AI 关系最密切的有 Figma Buzz、Figma Draw、Figma Make、Figma Sites 这 4 项。
权威信源:https://config.figma.com/san-francisco
Figma Buzz
面向品牌团队推出的 Figma Buzz,通过内置模板库与 AI 辅助功能,可快速生成符合品牌规范的多样化素材。该功能显著缩短了设计周期,尤其适用于需要高频产出营销物料的场景。
使用入口:前往 Figma 官网体验(figma.com/buzz)。
权威信源:https://help.figma.com/hc/en-us/categories/31194838351767-Figma-Buzz
Figma Draw
作为对标 Adobe Illustrator 的新功能,Figma Draw 支持矢量绘图、插图创作及混合编辑模式,并与现有设计组件无缝衔接。这一工具填补了 Figma 在复杂图形设计领域的短板,提升了设计灵活性。
使用入口:前往 Figma 官网体验(figma.com/draw)。
权威信源:https://help.figma.com/hc/en-us/sections/31830768959511-Figma-Draw
Figma Make
Figma Make 允许产品经理通过自然语言直接生成代码或交互原型,加速创意可视化进程。其与 GitHub 的文档同步功能,进一步减少了设计与开发团队间的沟通成本,推动协作效率提升。
使用入口:前往 Figma 官网体验(figma.com/make)。
权威信源:https://help.figma.com/hc/en-us/categories/31304285531543-Figma-Make
Figma Sites
设计师可在 Figma 中完成视觉设计后,直接填充文案并一键发布网站。Figma Sites 支持自动适配移动端,半小时内即可上线,为无代码建站提供了更轻量化的解决方案。
使用入口:前往 Figma 官网体验(figma.com/sites)。
权威信源:https://help.figma.com/hc/en-us/categories/31823555275671-Figma-Sites
5 月 9 日
腾讯
HunyuanCustom 多模态定制化视频生成模型,保持视频中多主体一致性(开源)
HunyuanCustom 是腾讯混元开源的一款视频生成模型,其核心创新在于解决了生成视频中单主体或多主体身份特征一致性的技术难题,在面部特征相似度、DINO 视觉相似度以及视频时序一致性等关键指标上均超越当前主流开源方案,达到与商业闭源模型比肩的水准。
该模型基于 HunyuanVideo 架构开发,可以灵活接收文本、图像、音频、视频等多元输入形式,在虚拟人广告制作、电商虚拟试穿、动态视频编辑、教育内容生成等场景展现出显著应用价值。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/tencent/HunyuanCustom);前往 Github 获取代码(github.com/Tencent/HunyuanCustom);前往 腾讯混元 官网体验(hunyuan.tencent.com/modelSquare/home/play?modelId=192)。
权威信源:https://hunyuancustom.github.io | 官方介绍
> “人物一致性做的不错,很适合拿来做数字人 👍 就是生成速度很慢 ⏳”
Luma AI
Reframe 智能扩展图像视频画面,适配多平台尺寸需求
Reframe 是 Luma 最新推出的尺寸调整功能,可以灵活调整图像和视频画面的尺寸。该功能支持在垂直、水平或对角线方向上自由扩展画面,并能适配 6 种常用宽高比(9:16、4:3、1:1、3:4、16:9、21:9),帮助用户快速优化内容,满足不同社交平台的发布要求。
使用步骤也很简单:只需点击底部 Reframe 按钮进入画布页面,通过拖拽调整内容的位置与大小,选择目标宽高比并输入提示词,即可完成重新构图。
使用入口:前往 Luma AI 官网体验(lumalabs.ai)。
权威信源:https://lumalabs.ai/blog/news/introducing-reframe
> “之前 Runway 已经上线了这个功能,现在 Luma 补上了 🎞”
Enigma Labs
Multiverse 多人模式游戏模型(全开源)
Multiverse 是 Enigma Labs 推出的一款游戏生成模型,支持多人实时互动。该模型通过动态生成画面,使两名玩家能在同一虚拟世界中流畅交互,同时保持场景连贯性与一致性。
其训练数据源自索尼经典游戏《GT赛车4》,研发成本不足 1500 美元,兼具低门槛与高性能优势,可适配普通 PC 运行。
使用入口:全开源;前往 HugingFace 获取模型/数据集(huggingface.co/Enigma-AI);前往 Github 获取代码(github.com/EnigmaLabsAI/multiverse)。
权威信源:https://enigma-labs.io/blog
秘塔AI搜索
讲题功能上线
秘塔AI搜索正式上线「讲题」功能,帮助学生高效解决学习难题。用户只需用手机拍摄题目或试卷并上传,AI 便会以分步骤讲解的方式还原完整解题过程。
与直接提供答案的工具不同,该功能模拟真实教师的教学逻辑,逐步拆解题目关键点,引导学生理解背后的思路与方法。
使用入口:前往 秘塔AI搜索 官网体验(metaso.cn/study);或者下载 App 今天学点啥。
权威信源:官方介绍
> “在提升用户体验方面,秘塔的理念极具独创性 👏”
5 月 12 日
Prime Intellect
INTELLECT-2 推理模型,全球首个分布式强化学习训练模型
INTELLECT-2 是由 Prime Intellect 团队开源的一款推理模型,参数量 32B,凭借分布式强化学习架构,在数学和编程领域展现出卓越性能。与传统依赖集中式超算的训练方式不同,该模型通过创新的众包模式,整合了全球闲置计算资源。这一模式显著降低了训练门槛,使中小企业和个人开发者也能参与高性能 AI 模型的开发。
为实现这一目标,团队自主研发了 PRIME-RL 训练框架,重点改进了 GRPO 训练方案,并引入高效数据过滤技术,有效解决了分布式环境下的训练稳定性问题。
使用入口:开源;前往 HugingFace 获取模型/数据集/代码(huggingface.co/collections/PrimeIntellect/intellect-2-68205b03343a82eabc802dc2);前往 Prime Intellect 官网体验(chat.primeintellect.ai)。
权威信源:https://www.primeintellect.ai/blog/intellect-2-release
> “如果分布式能成,训练的门槛将会大大的降低 🎊”
教育部
发布两项指南,科学规范推进人工智能全学段教育
教育部基础教育教学指导委员会发布《中小学人工智能通识教育指南(2025年版)》和《中小学生成式人工智能使用指南(2025年版)》,是进一步落实培养具有人工智能素养的创新人才的重要举措。
《中小学人工智能通识教育指南(2025年版)》旨在构建一套科学完备的人工智能通识教育体系:小学阶段注重兴趣培养与基础认知,初中阶段强化技术原理与基础应用,高中阶段注重系统思维与创新实践。
《中小学生成式人工智能使用指南(2025年版)》紧密围绕生成式人工智能在中小学教育中的应用场景,明确各学段使用规范,确保技术安全、合理、有效地辅助教学、促进学生个性化学习、推动教育管理智能化。
权威信源:中小学人工智能通识教育指南(2025年版) | 中小学生成式人工智能使用指南(2025年版)
> “AI教育要从娃娃抓起 👶”
5 月 13 日
OpenAI
HealthBench 医疗基准测试,评估大模型在医疗健康领域的表现(开源)
HealthBench 是 OpenAI 推出的全新基准测试,旨在系统评估大语言模型在医疗健康领域的专业表现与安全性。该测试由来自 60 个国家的 262 名医生合作开发,核心数据集包含 5000 段真实医患对话,每段均配备由临床专家制定的精细化评分标准。测试结果显示,o3 模型在当前参评模型中综合表现最优。
为满足不同场景需求,HealthBench 同步推出两个专项版本:HealthBench Hard 聚焦更具挑战性的疑难医学问题,考验模型的深度推理能力;HealthBench Consensus 则通过多医生联合验证机制,确保评估标准的专业性与一致性。
使用入口:开源;前往 Github 获取(github.com/openai/simple-evals)。
权威信源:https://openai.com/index/healthbench
> “可以预见,这种高质量的私有数据,会是未来模型差异化的源头 🎯”
爱诗科技
Pixverse V4.5 视频生成模型,实现电影级镜头控制
PixVerse V4.5 是爱诗科技最新上线的一款视频生成模型。该版本整合了 20 余种电影级镜头控制功能,支持多元素参考与动态融合,显著提升了视频生成的流畅度与细节表现力。
尤其在复杂动作处理方面,V4.5 通过优化算法实现了更自然的运动轨迹和场景过渡,使生成效果接近专业影视制作水准。
使用入口:前往 Pixverse 官网体验(app.pixverse.ai);或者调用 API(platform.pixverse.ai)。
权威信源:https://x.com/PixVerse_/status/1922296498127298754
> “继续进步,从而应对可灵的竞争 🎥”
昆仑万维
Matrix-Game 可交互视频生成世界模型,推动游戏世界建模(开源)
Matrix-Game 是昆仑万维开源的一款交互式世界基础模型,参数量 17B,专注于视频生成与用户交互的深度融合。该模型通过简单指令即可实现对虚拟世界的自由探索、操控与创造,生成细节丰富且符合物理规则的动态场景。
其核心架构包含三大模块:Matrix-Game-MC 数据集提供高质量训练数据,Matrix-Game 主模型实现动态世界生成与交互,GameWorld Score 评测体系则量化生成内容的合理性与丰富度。
作为昆仑万维 Matrix 系列在交互式世界生成方向的正式落地,Matrix-Game 也成为工业界首个开源的 10B+ 参数级空间智能大模型,为游戏开发等场景提供了可扩展的技术基础。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/Skywork/Matrix-Game);前往 Github 获取代码(github.com/SkyworkAI/Matrix-Game)。
权威信源:https://matrix-game-homepage.github.io | 官方介绍
阿里巴巴
QwenChat 上线网页开发和 Deep Research 功能
QwenChat 是阿里千问团队推出的智能对话交互平台,旨在为用户提供便捷、丰富的 Qwen 模型交互体验。网站近期更新了两大实用功能:
网页开发(Web Dev):用户仅需输入简单提示词,系统即可自动生成完整代码,并支持一键部署,大幅降低从创意到实际网页或应用落地的技术门槛(5月9日)
深度研究(Deep Research):通过引导用户精准聚焦问题范围,生成结构清晰、内容实用的分析报告。该功能还加入了「随机惊喜」机制,在严谨调研的基础上增添探索趣味性(5月13日)
使用入口:前往 QwenChat 官网体验(chat.qwen.ai)。
权威信源:官方介绍-Web Dev | Deep Research
Lovart.ai
首个通用 Design Agent,一句话搞定全链路设计
Lovart.ai 作为世界首个通用设计Agent,通过 AI 技术彻底重构设计流程。它能够自动完成意图解析、任务规划、批量执行与成果交付,实现从创意构思到最终成品的全链路自动化设计。
平台可视化任务链与无边画布功能,支持图层编辑、蒙版处理、文字精修等专业操作,并可分层导出PNG、JPG、SVG等多种格式,全面覆盖设计师从灵感到落地的全流程需求。
使用入口:前往 Lovart.ai 官网体验(lovart.ai)。
权威信源:官方介绍
> “无边画布很适合设计 Agent,用户体验非常不错 👏”
Notion
AI Meeting Notes 功能上线,自动转录会议内容并生成结构化摘要
AI Meeting Notes 是 Notion 推出的一款新功能,可以自动将会议转录文本转化为结构化笔记,并智能生成会议摘要、核心要点及行动项,大幅提升信息整理效率。
用户只需在任意页面输入快捷指令 /meet 即可启动,无需跳转其他 AI 工具,操作便捷。此外还可以与日历功能无缝衔接,把 AI 会议记录添加到日历活动中。
使用入口:前往 Notion 官网下载桌面应用并升级到 4.7.0 版本(notion.com)。
权威信源:https://www.notion.com/help/ai-meeting-notes
> “会议纪要,真是个刚需的大市场 💰”
5 月 14 日
Google DeepMind
AlphaEvolve 用于算法设计的编程智能体
AlphaEvolve 是 Google DeepMind 推出的一款编程智能体,采用迭代优化机制,通过持续改进最具潜力的算法方案实现性能提升。其核心优势在于内置的自动化评估系统,能够对生成的算法代码进行多维度验证。
根据官方示例,该智能体已在多个领域取得突破性成果:不仅设计出更高效的矩阵乘法算法,为开放性数学问题提供了新解法,还成功应用于谷歌数据中心运营、芯片架构设计和AI训练流程优化等实际场景,显著提升了系统运行效率。
使用入口:前往 AlphaEvolve Doc 填表申请体验(docs.google.com/forms/d/e/1FAIpQLSfaLUgKtUOJWdQtyLNAYb3KAkABAlKDmZoIqPbHtwmy3YXlCg/viewform)。
权威信源:https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms
快手 X 中科院 X 清华大学 X 南京大学
R1-Reward 多模态奖励模型,性能提升 5%-15%(开源)
R1-Reward 是快手联合中科院等开源的一款多模态奖励模型,通过引入 StableReinforce 算法,有效解决了多模态奖励模型训练稳定性与推理能力的核心难题。
实验数据显示,R1-Reward 在现有 Benchmark 上的表现,较 SOTA 模型提升 5%-15%,为多模态任务优化提供了高效解决方案。目前,R1-Reward 已成功应用于快手短视频、电商及直播等实际业务场景,显著提升了推荐系统与交互体验的精准度。
使用入口:开源;前往 HugingFace 获取模型/数据(huggingface.co/yifanzhang114/R1-Reward);前往 Github 获取代码(github.com/yfzhang114/r1_reward)。
权威信源:官方介绍
Stability AI X Arm
Stable Audio Open Small 文本转音频模型,支持移动端快速生成短音频(开源)
Stable Audio Open Small 是一款专为移动设备优化的开源文本转音频模型。该模型继承了 Stable Audio Open 的核心功能,能够根据文本提示生成短音频样本、音效及音乐制作元素,例如鼓点循环、环境音效、乐器片段等,适用于创意内容的高效生产。
其突出优势在于大幅精简的模型体积,参数规模从原版的 1.1B 压缩至 0.34B,成为首个可在 Arm 架构 CPU 上流畅运行的音频生成模型。实测数据显示,该模型在智能手机等移动端设备上仅需 8 秒即可生成 11 秒的高质量音频,显著降低了硬件门槛。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/stabilityai/stable-audio-open-small);前往 Github 获取代码(github.com/Stability-AI/stable-audio-tools)。
权威信源:https://stability.ai/news/stability-ai-and-arm-release-stable-audio-open-small-enabling-real-world-deployment-for-on-device-audio-control
> “生成速度是个亮点 ⚡”
阿里巴巴
Wan2.1-VACE 视频生成与编辑统一模型,支持全功能生成(开源)
Wan2.1-VACE 时阿里同意万相推出的一款模型,是目前业界功能最全面的视频生成与编辑统一模型。其核心优势在于,通过单一模型实现了多样化的视频创作需求,不仅支持文生视频、图像参考生成、视频重绘等基础功能,还能完成局部编辑、背景延展和时长延展等高级任务,用户可自由组合不同功能以满足复杂创作需求。
此次开源版本包含 1.3B 和 14B 两个尺寸,其中 1.3B 版本经过优化,可在消费级显卡上流畅运行,显著降低了技术使用门槛,为开发者和创作者提供了更灵活的部署选择。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/Wan-AI);前往 Github 获取代码(github.com/Wan-Video/Wan2.1);前往 通义万相 国内站官网体验(tongyi.aliyun.com/wanxiang);或者调用 API(bailian.console.alibabacloud.com)。
权威信源:https://ali-vilab.github.io/VACE-Page | 官方介绍
> “把商用模型的秘密都开源出来了 🧐 但生成的视频质量还差点意思 👀”
阶跃星辰 X 光影焕像
Step1X-3D 生成大模型,支持高保真可控生成(全开源)
Step1X-3D 是阶跃星辰推出的一款 3D 生成大模型,总参数量 4.8B,由 1.3B 的几何模块和 3.5B 的纹理模块构成,能够高效生成高保真且高度可控的 3D 资产。
该模型通过技术创新,显著提升了生成结果的精确度和易用性。用户可通过直观参数,灵活调节3D资产的对称性、表面细节(如锋利度与平滑度)等属性,确保输出内容精准匹配设计意图,降低了 3D 创作的准入门槛。
使用入口:全开源;前往 HugingFace 获取模型/数据/资产(huggingface.co/stepfun-ai/Step1X-3D);前往 Github 获取代码(github.com/stepfun-ai/Step1X-3D);前往 Demo 页面体验(huggingface.co/spaces/stepfun-ai/Step1X-3D)。
权威信源:官方介绍
> “阶跃也做 3D 了 ❗ 3D 这个赛道慢慢开始火热 🔥”
面壁智能 X 清华大学
SurveyGO 学术长文本写作工具(开源)
SurveyGO(卷姬)是清华大学与面壁智能团队共同研发的开源 AI 论文写作工具,尤其适用于文献综述撰写。它能够帮助科研人员、学生及行业分析师快速整合海量文献资料,生成逻辑清晰、结构严谨的学术内容。
在技术实现上,SurveyGO 采用了 LLMxMapReduce-V2 框架,通过文本卷积算法,逐步将局部文献信息抽象为全局结构化内容,确保生成文章的逻辑性和连贯性。
使用入口:开源;前往 Github 获取代码/数据/论文(github.com/thunlp/LLMxMapReduce);前往 SurveyGO 官网体验(surveygo.thunlp.org)。
权威信源:官方介绍
> “Long to Long 领域非常不错的实践 👏”
5 月 15 日
MiniMax
Speech-02 文本转语音(TTS)模型,音色克隆技术领先全球
MiniMax Speech-02 是 MiniMax 推出的一款 TTS 模型,凭借突破性的 Zero-Shot 能力,在音色克隆领域表现出色,在 Artificial Analysis 与Hugging Face 音频评测中双双登顶,成为全球同类模型的标杆。
该模型仅需一段参考音频,就可以精准提取说话人的音色、音调和风格特征,生成的语音效果高度拟真且稳定。此外,Speech-02 定价仅为行业竞品 ElevenLabs Flash V2.5 模型的四分之一,大幅降低了用户使用门槛。
使用入口:前往 MiniMax Audio 官网体验(minimax.io/audio);或者调用 API(minimaxi.com/platform_overview)。
权威信源:官方介绍
> “音色克隆能力很强 🔊”
Hedra
完成 3200 万美元 A 轮融资,估值达到 2 亿美元
Hedra 宣布完成 3200 万美元 A 轮融资,至此公司已经完成 4400 万美元融资。本轮融资由 a16z 领投,Matt Bornstein 将加入董事会。现有投资者,包括 a16z speedrun、Abstract 和 Index Ventures 也参与了本轮融资。资金将用于基础模型训练、产品升级和扩大团队规模。
Hedra 成立于 2023 年,专注于数字角色创作,核心产品是 Character 系列模型,以及一站式视频创作平台 Hedra Studio。
权威信源:https://www.hedra.com/blog/series-a-announcement
> “对标 Heygen 🚩”
5 月 16 日
Windsurf
SWE-1 编程模型,专注于复杂的软件工程任务
SWE-1 是 Windsurf 推出的一款编程模型,专为软件工程任务设计,在内部 prod task(生产任务)基准测试中接近顶尖基础模型,在生产环境盲测实验中也表现优秀。
该模型具备处理不完整状态和模糊结果的能力,可实时感知用户在 Windsurf Editor 中的操作并动态调整,实现高效的人机协作体验:
- SWE-1:旗舰模型,工具调用推理能力接近 Claude 3.5 Sonnet,但运行成本更低。推广期内所有付费用户免费使用。
- SWE-1-lite:更小但质量更高,全面取代了原有的 Cascade Base。所有用户免费使用。
- SWE-1-mini:专为 Windsurf Tab 低延迟被动体验而设计一个小型、极其快速的模型。所有用户免费使用。
使用入口:前往 Windsurf 官网下载并最新体验(windsurf.com)。
权威信源:https://windsurf.com/blog/windsurf-wave-9-swe-1
> “AI Coding 公司推出自己的模型在意料之中,据说蒸馏了不少其他模型的数据 👂”
腾讯
Hunyuan Image 2.0 图像生成模型,实现毫秒级响应
Hunyuan Image 2.0(混元图像 2.0)是腾讯发布的一款图像生成模型,将生图速度从原本的几秒甚至几十秒大幅缩短至毫秒级。这一技术实现了实时交互体验:用户输入提示词的同时,画面即动态生成,真正达到「边说边画、边打字边出图」的效果。
在性能方面,该显著提升了图像质量,生成的作品不仅细节丰富、写实感强,还有效减少了传统 AI 图像的生硬感。
使用入口:前往 腾讯混元 官网体验(hunyuan.tencent.com);或者调用 API(cloud.tencent.com/product/hunyuan)。
权威信源:官方介绍
> “质量比之前的 sd-lightning 强,适合拿来做提示词测试 👍”
Higgsfield AI
Higgsfield Ads 将产品图片转为专业的广告视频
Ads 是 Higgsfield 平台新上线的功能,可以快速制作广告视频。用户只需要上传一张产品图片,并从 40 多种专业模板中选择需要的效果,就可以在几秒钟后获得一条精美的、媲美专业工作室水准的商品广告视频。
这一功能突破了传统视频制作对设备、技术和时间的限制,为商家提供高效低成本的营销解决方案。
使用入口:前往 Higgsfield Ads 官网体验(higgsfield.ai/ads);或者调用 API(higgsfield.typeform.com/HiggsfieldAPI)。
权威信源:https://x.com/higgsfield_ai/status/1923158316764758122
> “Higgisfield 对商用需求的把握非常精准 🎯”
ElevenLabs
SB-1 无限音效板,可以定制音效的控制面板
SB-1 Infinite Soundboard 是 ElevenLabs 推出的一款音效定制应用,用户通过文字描述即可实时生成对应音效。该工具搭载了文本到音效(Text-to-SFX)模型,内置海浪、火焰、雷电等预设音效,支持一键触发或自由替换为自定义音效,并可混合多种音效叠加使用。
目前,ElevenLabs 正围绕 Text-to-SFX 模型开发更多插件,未来将适配 OBS 及数字音频工作站等平台,帮助用户在不切换软件的情况下直接生成并调用音效,进一步提升音频制作效率。
使用入口:前往 ElevenLabs Soundboard 官网体验(elevenlabs.io/sound-effects/soundboard);API 调用方式详见下方链接。
权威信源:https://elevenlabs.io/blog/how-we-created-a-soundboard-using-elevenlabs-sfx-api
特朗普访问中东三国
达成多项大额 AI 交易
5月13日至16日,美国总统特朗普访问沙特、卡塔尔和阿联酋三国,达成总额超2万亿美元的经贸协议,其中人工智能领域合作尤为突出。
在沙特,数字基建企业 DataVolt 宣布将投资 200 亿美元,在美国建设 AI 数据中心及配套能源设施。同时,沙特新成立的 AI 公司 HUMAIN 与亚马逊云服务(AWS)达成战略合作,计划投入 50 亿美元打造该国首个「人工智能园区」,推动本土 AI 技术发展。
阿联酋则聚焦 AI 基础设施布局。由 G42 集团主导建设的 5GW(吉瓦)人工智能园区正式启动,将成为美国境外规模最大的 AI 园区。此外,据媒体报道,美方已批准自 2025 年起,允许阿联酋每年进口 50 万片英伟达尖端 AI 芯片,进一步强化其算力基础。
权威信源:媒体报道
5 月 17 日
阿里巴巴
ZeroSearch 强化学习框架,通过模拟搜索引擎提升大模型的搜索能力(开源)
ZeroSearch 是阿里巴巴通义实验室提出的一种强化学习框架,通过创新性地模拟搜索引擎行为,有效提升了大语言模型的自主搜索能力。其核心突破在于摆脱了对真实搜索引擎的依赖,转而利用大模型预训练阶段积累的海量知识构建检索模块。
实测数据显示,该模型在 NQ、TriviaQA、PopQA、HotpotQA 等问答数据集上表现出色,综合成本较传统谷歌搜索降低了 80% 以上。
使用入口:开源;前往 HugingFace 获取模型/数据(huggingface.co/collections/sunhaonlp/zerosearch-google-v2-6827f4ee6b6265069d443d4e);前往 Github 获取代码(alibaba-nlp.github.io/ZeroSearch)。
权威信源:https://alibaba-nlp.github.io/ZeroSearch | 官方介绍
OpenAI
Codex 云端编程智能体,高效处理复杂软件工程任务
OpenAI Codex 云端编程智能体,基于专为软件工程优化的 codex-1(o3版本)模型,能够高效完成功能开发、代码库问题解答、漏洞修复及拉取请求提交等任务。
用户可通过 ChatGPT 侧边栏快速调用 Codex:输入提示词后,点击 Code 分配编程任务,或点击 Ask 咨询代码库相关问题。任务完成后,智能体会在云端环境中提交更改,并提供完整的操作追溯功能,便于用户审查结果或请求进一步调整。
使用入口:前往 ChatGPT Codex 官网体验(chatgpt.com/codex)。
权威信源:https://openai.com/index/introducing-codex
> “更偏向专业 Coding 辅助,而不是 Vibe Coding 🧐”
5 月 18 日
五源资本
72 小时 AI 生存挑战,依靠 AI 工具解决生存需求
五源资本发起了一项名为「72 小时 AI 生存挑战」的创新实验,灵感来源于 26 年前的「网络生存测试」。活动将 7 位不同背景的参与者置于一个封闭空间内,没有智能手机,无法使用(移动)互联网产品。挑战者仅能依靠 AI 工具和 100 元启动资金完成生存挑战,并鼓励创造额外价值。
本次挑战于5月15日至18日在上海展开,参与者涵盖大厂产品经理、大学生、独立开发者、大模型算法工程师、金鸡奖提名导演、AI博士生等多领域人士。
权威信源:官方介绍
5 月 19 日
哔哩哔哩
Index-AniSora 动漫视频生成模型,献给二次元世界的礼物(开源)
Index‑AniSora 是哔哩哔哩开源的一款动漫视频生成模型,支持一键生成多种动漫风格的视频镜头,包括番剧片段、国创动画、漫画改编、VTuber 内容、动画 PV、鬼畜(MAD)等。
该模型基于 B 站自研的 AniSora 技术,并在此基础上进一步提出了首个专为二次元视频生成打造的强化学习技术框架,全面提升了二次元动画内容的生产效率与质量。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/IndexTeam/Index-anisora);前往 Github 获取代码(github.com/bilibili/Index-anisora)。
权威信源:媒体报道| 官方介绍
> “这个模型 B 站做最对味 👀”
字节跳动
火山引擎 MCP Servers 大模型生态广场发布
火山引擎发布 MCP Servers 大模型生态广场,集成了众多高质量的 MCP 协议适配工具,涵盖搜索、数据库、业务系统 API 等高频场景。开发者无需编写接口代码,直接拖拽所需工具即可使用。
此次发布,旨在通过「MCP Market(工具广场)+ 火山方舟(大模型服务)+Trae(应用开发环境)」深度协同,实现工具调用、模型推理到应用部署的全链路开发闭环,助力开发者以「模块化组装」模式告别复杂手动开发流程。
使用入口:前往 大模型生态广场 官网体验(volcengine.com/mcp-marketplace)。
权威信源:官方介绍
> “暂时不支持第三方 MCP Server,不够开放 🙅♂️”
腾讯 QQ 浏览器
QBot 上线,正式升级为 AI 浏览器
QQ 浏览器近日宣布全面升级为 AI 浏览器,正式推出智能助手 QBot,为用户提供 AI 驱动的搜索、浏览、办公、学习及写作五大核心功能。
QBot 通过整合多 Agent 协作技术,能够高效执行复杂任务,例如「AI 高考通」可为考生提供专业指导,下载助理、更新助理和股票助理等则针对不同场景提供精准服务。
使用入口:前往 QQ浏览器 官网下载(browser.qq.com)桌面端;或者移动端下载 App。
权威信源:官方介绍
> “浏览器也是 AI 厂商的必争之地 ⚔”
Flowith
Neo 云端 Agent 系统,首个「无限」智能体
Flowith Neo 是 Flowith 团队开发一款云端智能体系统,具备无限步骤、无限上下文和无限工具的特性,能够完成长上下文、长时间运行的复杂任务。
无限步骤,指任务执行过程中持续进行推理和规划,无需用户手动干预;无限上下文,指上下文窗口长达 10M Token,能够处理超大规模的数据,确保任务全程的连贯性;无限工具,指 Oracle 能动态调用多种外部工具,包括图像生成、联网搜索、提示词优化等等。
使用入口:前往 Flowith 官网体验(flowith.io)。
权威信源:https://x.com/flowith_ai/status/1924453961538670755
5 月 20 日
字节跳动
Seed-Coder 轻量级编程模型,字节的前沿探索成果(开源)
Seed-Coder 是字节开源的编程模型家族,专注于提升代码生成、补全、编辑及逻辑推理等能力。该模型基于 Llama 3 架构开发,参数量 8.2B,上下文窗口 32K,包含基座模型(Base Model)、指令微调模型(Instruct Model)和推理模型(Reasoning Model)三个版本。
其核心创新在于数据处理的自动化机制,通过模型自生成与筛选高质量训练数据,显著减少了传统方法中依赖人工预处理的工作量。不过,受限于构建的代码数据规模,Seed-Coder 对通用自然语言的理解和对非代码任务的处理表现仍十分有限。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/collections/ByteDance-Seed/seed-coder-680de32c15ead6555c75b0e4);前往 Github 获取代码(github.com/ByteDance-Seed/Seed-Coder)。
权威信源:https://bytedance-seed-coder.github.io | 官方介绍
智元机器人
EVAC 基于机器人动作序列驱动的具身世界模型 && EWMBench 具身世界模型基准测试(开源)
智元机器人发布的具身世界模型 EVAC 及基准测试 EWMBench,旨在构建「低成本模拟 - 标准化评测 - 高效迭代」的全新开发范式,赋能全球具身智能研究。二者已全面开源。
EVAC 是全球首个机器人动作序列驱动的世界模型,能够动态复现机器人与环境复杂交互,标志着从传统仿真到生成式模拟的跃迁。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/agibot-world/EnerVerse-AC);前往 Github 获取代码(github.com/AgibotTech/EnerVerse-AC)。
EWMBench 是具身世界模型基准测试,可以科学、系统地衡量具身世界模型的性能表现,填补了行业空白。
使用入口:开源;前往 HugingFace 获取数据(huggingface.co/agibot-world/EWMBench-model);前往 Github 获取代码(github.com/AgibotTech/EWMBench)。
权威信源:官方介绍
美图
获得阿里巴巴 2.5 亿美元投资,双方达成战略合作
美图宣布与阿里巴巴签署 2.5 亿美元可转债协议,双方还将在电商和模型开发领域展开深入合作。
阿里巴巴将在旗下电商平台优先推广美图 AI 电商工具,同时协助美图开发电商生图及生视频的新工具/新功能。阿里巴巴将为美图公司核心业务提供技术支持,满足美图公司旗下 AI 产品推理/训练等算力需求。美图公司承诺未来三年向战略投资者阿里巴巴采购不低于 5.6 亿元的云服务。
权威信源:官方介绍 | CEO最新访谈
> “阿里投资开始在 AI 应用领域发力 📍”
Google I/O 2025
Gemini 2.5 Pro && Gemini 2.5 Flash 模型升级
Google I/O 2025 开发者大会于5月20日至21日在加州举行,不仅展示了谷歌在人工智能领域的最新进展,还发布了多项重要产品和功能。
权威信源:https://blog.google/technology/ai/google-io-2025-all-our-announcements
> “Google 彻底打了个翻身仗,全方位领先 👑”
Gemini 2.5 Pro 和 Gemini 2.5 Flash
本次大会的主角之一,两款模型新增了原生音频输出功能,让对话体验更加自然流畅,还引入了 Project Mariner 的计算机使用能力。
Gemini 2.5 Pro 还配备 Deep Think 模式来增强推理功能,用于处理高度复杂的数学和编程问题;还增加了 Thinking Budgets 功能,允许用户能自由控制思维链长度。
Gemini 2.5 Flash 以快速和低成本优势深受开发者喜爱,本次升级后在推理、多模态、代码和长文本处理等关键基准测试中都表现出色。
使用入口:前往 Gemini App 官网(gemini.google.com)或者 Google AI Studio 官网(aistudio.google.com)体验;或者调用 API(cloud.google.com/vertex-ai)。
权威信源:https://blog.google/technology/google-deepmind/google-gemini-updates-io-2025
Google I/O 2025
Gemma 3n 多模态模型,移动端优化(开源)
Gemma 3n 是大会开源的一款多模态模型,支持文本、图像、音频、视频等多种数据类型的输入,并能够生成结构化的文本输出。其新增的音频理解能力尤为突出,可实现实时语音转录、背景音识别及情感分析,并在多语言场景下表现优异。
该模型采用与高通、联发科、三星等硬件厂商合作研发的全新架构,针对移动设备进行了深度优化,可以在仅 2GB 和 3GB 动态内存的设备上运行,包括智能手机、平板电脑和笔记本电脑等设备等。
使用入口:前往 Google AI Studio 官网(aistudio.google.com)和 Google AI Edge 网站(developers.googleblog.com/en/google-ai-edge-small-language-models-multimodality-rag-function-calling)体验。
权威信源:https://developers.googleblog.com/en/introducing-gemma-3n
Google I/O 2025
Imagen 4 图像生成模型,实现 2K 高分辨率
Imagen 4 图像生成模型,在图像质量尤其细节方面表现出色,能够精准生成复杂细节,比如织物纹理、水滴、动物毛发等。同时支持多种宽高比及高达2K分辨率的输出,满足专业设计需求。
值得一提的是,Imagen 4 在文字拼写与排版方面进行了优化,显著提升了海报、漫画等内容的生成效果。
使用入口:前往 Gemini app 官网(gemini.google.com)或者 Whisk(labs.google/whisk)体验;或者调用 API(cloud.google.com/blog/products/ai-machine-learning/announcing-veo-3-imagen-4-and-lyria-2-on-vertex-ai)。
权威信源:https://deepmind.google/models/imagen
Google I/O 2025
Lyria 2 音乐生成模型 && Lyria RealTime 交互式音乐生成应用
在 Google I/O 2025 大会上,Lyria 2 音乐生成模型及其创新功能 Lyria RealTime 正式亮相。
Lyria 2 支持文本、MIDI 或音频片段等多种输入方式,可以生成流行、摇滚、古典等不同风格的音乐,并支持风格融合,音频输出质量达到了专业录音室标准。
基于 Lyria 2 的 Lyria RealTime 进一步突破技术边界,将生成延迟控制在 500 毫秒以内,实现了音乐创作的实时交互。用户可在表演或创作过程中即时生成、调整并演绎音乐,为现场演出和即兴创作提供了全新可能。
使用入口:前往 Lyria 官网申请加入 Waiting List(deepmind.google/models/lyria);或者调用 API(cloud.google.com/blog/products/ai-machine-learning/announcing-veo-3-imagen-4-and-lyria-2-on-vertex-ai)。
权威信源:https://deepmind.google/models/lyria
> “只能生成没有人声的音乐,无法生成歌曲 🎵”
Google I/O 2025
Veo 3 视频生成模型,进入音画同步时代
Veo 3 是 Google 最先进的视频生成模型,引入了原生音频生成功能,能够根据提示,生成与视频内容高度匹配的音效、配乐、背景噪音、环境音、人物对话、旁白等内容,实现了音频与视频的深度融合。
除音频突破外,Veo 3 在画质和创作灵活性上也有显著提升。模型支持文本或图像输入,可以输出 4K 超高清视频,细节表现力和画面流畅度达到行业领先水平。
使用入口:前往 Gemini app 官网(gemini.google.com)或者 Flow 官网(labs.google/flow/about)体验;或者调用 API(cloud.google.com/blog/products/ai-machine-learning/announcing-veo-3-imagen-4-and-lyria-2-on-vertex-ai)。
权威信源:https://deepmind.google/models/veo
> “第一个可以自动生成人物配音的视频模型,AI视频不再是哑剧 🔊”
Google I/O 2025
Flow 电影级影视片段制作工具,集成了 Google 最先进模型
Flow 是一款专为影视创作者打造的 AI 创作工具,它整合了 Google 三大前沿模型:Veo 3 负责视频生成,Imagen 4 实现图像创作,Gemini 2.5 提供语言理解与文本生成能力。
通过多模型协同,用户能够以较低的成本生成高质量的影视片段,涵盖从脚本构思到画面呈现的全流程。
使用入口:前往 Flow 官网体验(labs.google/flow/about)。
权威信源:https://blog.google/technology/ai/google-flow-veo-ai-filmmaking-tool
Google I/O 2025
SynthID Detector 识别 AI 生成内容的检测平台
SynthID 是 Google 在 2023 年推出的一项技术,通过不可见的数字水印来标记 AI 生成内容,目前已应用到超过 100 亿份图像、视频、音频及文本中。
为帮助用户快速识别这类内容,Google 推出了 SynthID Detector 检测平台。该平台支持用户上传文本、图像、音频或视频文件,通过分析内嵌的 SynthID 水印,自动判断内容是否由 AI 生成。对于检测结果,系统会以高亮形式标注文本或图像中的相关部分,音频文件则能精确锁定时间片段,提供直观的可视化反馈。
使用入口:前往 SynthID Detector 官网申请 Waiting List(deepmind.google/science/synthid)。
权威信源:https://deepmind.google/science/synthid
Google I/O 2025
Jules 异步编程智能体,在云端虚拟机中独立执行任务
Jules 是一款搭载了 Gemini 2.5 Pro 模型的异步编程助手,专为复杂开发任务设计。它通过将用户代码库完整克隆至安全的 Google Cloud 虚拟机,实现对项目上下文的深度理解,并独立执行高难度操作。其核心能力涵盖自动化测试编写、缺陷修复、依赖版本升级以及新功能开发等等,能显著提升开发效率。
使用入口:前往 Jules 官网体验(jules.google),面向全球开放。
权威信源:https://blog.google/technology/google-labs/jules
Google I/O 2025
Stitch 基于自然语言的 UI 设计与代码生成工具
Stitch 是 Google Labs 推出的一款实验性工具,通过 Gemini 2.5 Pro 的多模态能力,实现了从自然语言到用户界面的快速转化。
用户仅需输入文字描述或上传图像,Stitch 即可在几分钟内生成完整的 UI 设计及前端代码,并支持一键导出至 Figma,简化了传统工作流程,显著提升产品设计与开发效率。
使用入口:前往 Stitch 官网体验(stitch.withgoogle.com)。
权威信源:https://developers.googleblog.com/en/stitch-a-new-way-to-design-uis
Google I/O 2025
AI Mode 正式登录 Google Search,搜索从此「千人千面」
AI Mode 功能正式登录 Google Search。这种全新的搜索模式,可以把用户提问智能拆解为多个子主题,并行发起深度查询,最终整合生成一份包含文字、图像、视频及引用来源的综合性报告。
此外,AI Mode 还深度融合了用户的个性化数据。通过分析搜索历史及 Gmail 等 Google 生态应用中的信息,它能精准适配用户偏好,提供「千人千面」的定制化搜索结果。
使用入口:前往 Google Search 官网体验(google.com),目前已面向全美用户推出。
权威信源:https://blog.google/products/search/google-search-ai-mode-update
> “如此庞大的日活下,背后的算力成本应该相当高昂 💸”
5 月 21 日
Mistral AI X All Hands AI
Devstral 编程模型,专注于复杂的软件工程任务
Devstral 是由 Mistral AI 与 All Hands AI 联合开发的一款 Agentic 大模型,专为复杂软件工程任务设计。该模型在代码生成、代码优化及复杂代码库分析方面表现卓越,能够精准处理上下文关联、识别组件依赖关系并检测细微错误。在 SWE-Bench Verified 基准测试中,Devstral 大幅领先于其他开源模型和部分闭源模型。
此外,Devstral 参数规模 24B,可以在单个 NVIDIA RTX 4090 显卡或 32GB RAM 的 Mac 上运行,非常适合本地部署和企业级应用。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/mistralai/Devstral-Small-2505);通过 Mistral API 访问该模型(devstral-small-2505);前往 OpenHands官网尝试(all-hands.dev)。
权威信源:https://mistral.ai/news/devstral
> “又一个专注于 Coding 的小模型 👩💻”
腾讯
混元游戏视觉生成平台 && Hunyuan-Game 工业级游戏内容资产生成模型
混元游戏视觉生成平台是首个工业级 AIGC 游戏内容生产引擎,依托混元大模型为游戏美术设计师提供了 AI 美术管线、实时画布、AI 2D 美术生成、专业角色多视图生成一系列 AI 工具,大幅优化了游戏资产生成与游戏制作流程。
据技术报告显示,Hunyuan-Game 作为首个工业级游戏内容生成系列大模型,覆盖了图像与视频生成的全链路能力:
- 在图像生成领域,整合了四大核心模型:游戏生图大模型底座、特效生成模型、透明图生成模型、角色原画生成模型。
- 在视频生成方面,部署了五大技术模块:游戏图生视频底座模型(HunyuanGame-I2V)、A/T pose角色360°多视图生成模型(HunyuanGame-Turnaround)、角色动态立绘生成模型(HunyuanGame-Live2D)、游戏视频超分模型(HunyuanGame-SR)、交互式游戏视频模型(HunyuanGame-Craft)。
使用入口:前往 混元游戏 官网申请体验(hunyuan.tencent.com/game);技术报告(cdn-portal.hunyuan.tencent.com/game/assets/pdf/Hunyuan_Game.pdf)。
权威信源:https://hunyuan.tencent.com/hunyuan-game | 官方介绍
NVIDIA
Cosmos-Reason1-7B 面向机器人技术的视觉-语言推理模型(开源)
Cosmos-Reason1 是 NVIDIA 推出的推理模型家族,专注于机器人领域的视觉-语言交互任务。该系列基于 Cosmos 世界基础模型平台开发,具备对运动轨迹、物体交互及时空关系的高级理解能力,能够通过视觉输入解析环境、预测事件结果,并生成优化决策方案。
此次发布的 Cosmos-Reason1-7B 和Cosmos-Reason1-56B 两款模型中,7B 版本已全面开源,其轻量化设计适配资源有限的边缘设备。
使用入口:开源;前往 HugingFace 获取模型/数据(huggingface.co/collections/nvidia/cosmos-reason1-67c9e926206426008f1da1b7);前往 Github 获取代码(github.com/nvidia-cosmos/cosmos-reason1)。
权威信源:https://research.nvidia.com/labs/dir/cosmos-reason1
字节跳动
飞书知识问答功能上线,整合企业内资源实现智能解答
飞书上线了「飞书知识问答」AI 功能,旨在整合企业内部的知识资源(如云文档、知识库、云盘文件、消息、会议等),为用户提供精准、高效的问题解答服务。
用户无需手动整理或上传资料,系统会根据权限范围,自动将各类资源纳入个人知识库。这一设计不仅降低了知识管理成本,还使得团队在协同过程中可以自然地沉淀知识,为 AI 提供丰富的数据源。
使用入口:前往 飞书知识问答 官网体验(ask.feishu.cn)。
权威信源:官方介绍
> “企业内部的 Deep Search 🔎”
腾讯
腾讯云智能体开发平台(TCADP)上线
2025 腾讯云 AI 产业应用峰会上,腾讯云宣布大模型知识引擎全面升级为「腾讯云智能体开发平台 (TCADP)」。
TCADP 平台将 RAG 技术、Agent 能力及实战功能体系进行了整合,致力于帮助企业激活私域知识,快速定制开发智能体。
使用入口:前往 TCADP 官网体验(cloud.tencent.com/product/tcadp)。
权威信源:官方介绍
> “一个类似 Coze 和 Dify 的平台,但是非常简陋,看不出有什么竞争力 ❓”
面壁智能
完成新一轮数亿元融资
面壁智能宣布完成新一轮数亿元融资。本轮融资由洪泰基金、国中资本、清控金信和茅台基金联合投资。融资将进一步为面壁智能构筑高效大模型技术、产品壁垒、加速行业赋能与生态拓展奠定坚实基础,协同产业上下游推动「端侧大脑」在千行百业规模化应用。
权威信源:官方介绍
> “全球为数不多专注端侧小模型的企业 🏆”
5 月 22 日
Kyutai
Unmute.sh 语音系统,可以为任何文本大语言模型添加语音功能(即将开源)
Unmute.sh 是法国 Kyutai 实验室开发的模块化语音交互系统,能够为现有文本大语言模型无缝集成语音功能。该系统通过语音转文字(STT)模块实时转录用户语音输入,交由语言模型(Gemma3-12B)生成文本回复,再通过文字转语音(TTS)模块以自然语音输出。
此外,Unmute.sh 支持高度个性化定制,包括声音风格调整、智能对话打断和轮流发言等交互优化,适用于多样化应用场景。
使用入口:前往 unmute.sh 官网体验(unmute.sh);所有功能将在未来几周内开源。
权威信源:https://kyutai.org/2025/05/22/unmute.html
Mistral AI
Document AI 高精度文档解析工具,成本低至 1 美元 2000 页
Document AI 是一款基于 Mistral OCR 模型构建的文档解析应用,能够高效处理PDF、扫描件、PPT等多种文件格式。其核心优势在于能精准解析复杂内容,包括表格、发票、数学公式、图像及手写文本,并输出结构化数据。
该工具在多语言场景下准确率高达 99%,性能表现尤为突出,单个 GPU 每分钟可处理 2000 页文档,远超行业平均水平。同时,其成本优势显著,批量处理每 2000 页仅收费 1 美元,性价比显著优于 Google Document AI 和 Azure OCR 等主流解决方案。
使用入口:前往 Le Chat 官网体验(chat.mistral.ai);或者调用 API(console.mistral.ai)。
权威信源:https://mistral.ai/solutions/document-ai
> “一个基于 OCR 模型 API 实现的简单应用 💻”
昆仑万维
Skywork Super Agents 天工超级智能体上线
天工超级智能体(Skywork Super Agents)是昆仑万维推出的 Agent 应用,其核心创新在于「5专家+1通用」的智能架构设计。
五个专家智能体分别聚焦文档、PPT、表格、播客和网页生成,每个模块都具备垂直领域的专业深度。通用智能体则通过 MCP 协议整合数十个专业工具,实现从音乐创作(如生成夏日钢琴曲)到宣传片制作的多模态输出。
使用入口:前往 Skywork 官网体验(skywork.ai)或(tiangong.cn)。
权威信源:官方介绍
> “又一个类 Manus 应用,做 PPT 尤其出色 🧐”
LMArena
完成 1 亿美元种子轮融资,估值达到 6 亿美元
LMArena 宣布完成 1 亿美元种子轮融资。本轮融资由 a16z(Andreessen Horowitz)和加州大学(UC Investments)领投,Lightspeed Venture Partners、Felicis Ventures 和 Kleiner Perkins 等公司跟投。融资将用于增加平台功能、支付模型费用、扩大团队规模等。
LMArena(前身 Chatbot Arena )最初是加州大学伯克利分校的一个学术研究项目,允许用户测试模型并投票。完成本轮融资一周后,LMArena 宣布品牌更新并升级了独立网站的外观。
使用入口:前往 LMArena 官网体验(lmarena.ai)。
权威信源:https://www.bloomberg.com/news/articles/2025-05-21/lmarena-goes-from-academic-project-to-600-million-startup
OpenAI
以 65 亿美元收购 io,进军 AI 硬件领域
OpenAI 宣布以近 65 亿美元全股票交易收购 io,这是公司历史上最大规模的并购。收购完成后,Jony Ive 将与 Sam Altman 合作开发具备环境感知与分析能力的下一代 AI 硬件设备,首款产品预计于 2026 年发布。
Jony Ive 是前 Apple 首席设计师,曾主导设计了 iMac、iPhone、iPad、Apple Watch 等标志性产品。2019 年从 Apple 离职后成立了设计事务所 LoveFrom,2024 年与 Sam Altman 共同创立了 io 公司。
权威信源:https://openai.com/sam-and-jony
> “非常诡异的合照 👀”
Microsoft Build 2025
迈向 AI Agent 时代,构建 Open Agentic Web 成为新愿景
5月19日至22日,Microsoft 一年一度的开发者大会 Microsoft Build 2025 在西雅图举行。本届大会重点强调了 AI Agent 的发展,将其视为未来计算的核心。大会重大发布全都与智能体有关:
- GitHub Copilot:上线编程智能体,开源 GitHub Copilot Chat 插件,并将其深度集成至 VS Code,使其成为全球首款开源AI编辑器。
- Microsoft Discovery:通过专业智能体团队与图数据库的结合,科研人员能够快速获取精准信息,显著提升研究效率与规模。
- NLWeb(开源):让用户通过自然语言与网页交互,将传统网站转化为智能体应用场景。
- Factory:Windows AI Foundry 覆盖训练与推理环节,而 Azure AI Foundry 则专注于智能体与应用的一站式定制管理。
- Copilot Tuning:允许企业基于自身数据与工作流,零代码微调 Microsoft 365 Copilot。
权威信源:https://news.microsoft.com/build-2025-book-of-news | 媒体报道
5 月 23 日
Anthropic
Claude Opus 4 和 Claude Sonnet 4 推理模型,专注持续性推理与复杂任务执行
Anthropic 正式推出新一代 Claude 4 系列大语言模型,包含高性能的 Claude Opus 4 和均衡型 Claude Sonnet 4 两款产品。该系列采用混合推理架构,支持模型在快速响应与深度思考模式间动态切换。
旗舰型号 Claude Opus 4 专为高强度持续推理设计,可保持数小时的专注状态处理包含数千步骤的超长任务链。SWE-bench 和 Terminal-bench 成绩刷新行业纪录,被业界评价为当前最强的编程辅助模型。
相较之下,Claude Sonnet 4 在保持较高推理性能的同时更注重能效平衡,不仅作为 Claude 平台的免费默认模型开放使用,其 API 服务也展现出优于前代 Sonnet 3.7 的稳定性。
使用入口:前往 Claude 官网体验(claude.ai);或者调用 API(console.anthropic.com)。
权威信源:https://www.anthropic.com/news/claude-4
> “重夺编程模型之王的宝座 👑”
上海人工智能实验室
书生·思客(InternThinker)围棋推理模型
升级后的书生·思客(InternThinker)是首个既具备围棋专业水平,又能展示透明思维链的大模型。
用户在与 InternThinker 对弈的过程中,大模型化身为循循善诱的「教练」,能全面地分析当前局面形势,对不同的落子点进行判断和对比,并给出明确的结果,让用户了解每一步棋背后的推理过程和决策依据,从而帮助用户更好地理解和学习围棋。
使用入口:开源;前往 Github 获取 InternBootcamp 技术代码(github.com/InternLM/InternBootcamp);前往官网体验(chat.intern-ai.org.cn)。
权威信源:官方介绍
> “用 LLM 下围棋,有一种奇特的复古感 🧭”
字节跳动
Dolphin 文档解析模型,高效精准处理复杂文档(开源)
Dolphin 是字节开源的一款文档解析模型,专注于复杂文档的结构化处理,能够精准提取文本、表格、公式及图表等多元内容。相较于传统方案,Dolphin 在模型体积和解析速度上优势显著,效率提升近 2 倍,尤其适合对实时性要求较高的场景。
在性能测试中,Dolphin 展现出卓越的准确率,不仅优于 GPT-4.1、Claude3.5-Sonnet 等通用多模态模型,还超越了 Gemini2.5-pro、Qwen2.5-VL 及垂类 OCR 标杆 Mistral-OCR。这一表现使其成为当前文档解析领域的技术前沿代表。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/ByteDance/Dolphin);前往 Github 获取代码(github.com/bytedance/Dolphin)。
权威信源:官方介绍
> “非常利好本地化 RAG 🔎”
5 月 25 日
宇树科技
《CMG世界机器人大赛·系列赛》机甲格斗擂台赛,展现高难度格斗技术
由中央广播电视总台主办的《CMG世界机器人大赛·系列赛》机甲格斗擂台赛近日在杭州举行。作为全球首场以人形机器人为参赛主体的格斗竞技赛,该赛事标志着人形机器人技术从实验室迈向大众舞台的重要突破。
本次比赛中,宇树科技派出四台 G1 人形机器人参赛,展现了出色的运动控制能力和拟人化表现,能够完成侧踢、膝踢、勾拳等高难度动作,可以通过遥控器绑定动作输出,实现灵活的战术配合。
权威信源:新闻报道
> “比上个月马拉松比赛的机器人,看起来强多了 🤖 ”
5 月 26 日
红杉中国
xbench 基准测试,聚焦真实场景效用与垂类智能体评测(开源)
xbench 是红杉中国推出的一款全新 AI 基准测试,不仅关注模型的理论能力上限,还重点量化了 AI 系统在真实场景的效用价值。
xbench 首期发布了科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),并对该领域主要产品进行了综合排名。
同期,xbench 提出了垂直领域智能体的评测方法论,并构建了面向招聘(Recruitment)和营销(Marketing)领域的垂类 Agent 评测框架。
使用入口:前往 xbench 官网查看(xbench.org)。
权威信源:官方介绍
5 月 27 日
字节跳动
豆包·语音播客模型(预告)&& 扣子空间 Agent 播客制作功能上线
豆包·语音播客模型实现了从文本创作到双人对话式播客的秒级转化,提供高度拟人的语音效果,无需复杂剪辑,5秒钟就能生成一期生动的播客音频。模型输入支持主题探索、超长文本、本地文档、URL 网址等多种格式,并预告即将在豆包、扣子等产品中陆续上线。
扣子空间首先上线了播客制作功能,不同于以往 AI 生成的生硬语音,扣子空间模拟真人专业播客的口语习惯,双人对谈,交叉附和,「捧哏」与「逗哏」配合默契,听觉效果高度拟人。
使用入口:前往 扣子空间 官网体验(space.coze.cn)。
> “语音播客模型的语气非常真实自然,中文领域最佳 👑”
5 月 28 日
Mistral AI
Codestral Embed 代码嵌入模型,性能超越主流方案
Codestral Embed 是 Mistral 推出的一款嵌入模型,专门面向编程场景,旨在优化代码检索效率并提升开发体验。该模型在多项基准测试中表现突出,性能优于 OpenAI、Cohere及Voyage Code 3 等同类产品。
其核心优势在于高度灵活的定制能力。开发者可根据实际需求调整嵌入向量的维度和精度,例如生成 256 维 int8 精度的轻量级向量,从而在存储开销与计算性能之间实现动态平衡。
使用入口:前往 Mistral AI 调用 API(docs.mistral.ai/capabilities/embeddings/code_embeddings)。
权威信源:https://mistral.ai/news/codestral-embed
> “连 Embedding 模型都有为代码设计的了,Coding 赛道真的火🔥 ”
字节跳动
BAGEL 统一多模态理解与生成模型(开源)
BAGEL 是字节开源的一款多模态基础模型,能够统一处理文本、图像、视频等多种模态的输入,并以文本、图像或图文组合的形式输出结果。在公开的多模态理解与生成基准测试中,BAGEL 的表现显著优于以往的开源统一模型,展现出强大的跨模态能力。
实验显示,随着训练数据的扩展,BAGEL 不仅提升了核心的多模态理解和生成性能,还涌现出了更复杂的组合能力。例如,它能够实现长文本推理与多模态生成的结合、自由图像编辑、未来帧预测、3D 空间操控以及世界导航等高级功能。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/ByteDance-Seed/BAGEL-7B-MoT);前往 Github 获取代码(github.com/bytedance-seed/BAGEL)。
权威信源:https://seed.bytedance.com/bagel | 官方介绍
> “人物一致性比 gpt-image-1 强 👍 但其他都远远不如 👎”
腾讯
HunyuanVideo-Avatar 语音数字人模型,图像+音频=说话&唱歌的数字人(开源)
HunyuanVideo-Avatar 是腾讯混元开源的一款语音数字人模型,能够通过用户上传的人物图像和音频,自动合成表情自然、唇形同步且动作协调的说话或唱歌视频。
该模型以 HunyuanVideo 为基础框架,支持头肩、半身及全身景别,并可实现多风格、多物种(如虚拟角色)及双人互动场景的生成,显著提升了数字人的表现力和应用范围。
在落地方面,HunyuanVideo-Avatar 已广泛应用于腾讯音乐、酷狗音乐等平台的 MV 制作、长音频绘本生成,以及全民 K 歌的用户定制化 MV 创作。
权威信源:https://hunyuanvideo-avatar.github.io | 官方介绍
Odyssey
实时 3D 互动视频技术(研究预览),延迟仅 40 毫秒,成本低至 1 美元/小时
Odyssey最新研究预览显示,其基于世界模型的 3D 互动视频技术取得关键进展。通过优化生成与传输流程,系统可在用户操作后的 40 毫秒内实时渲染视频帧,实现近乎零延迟的交互体验。当前运行成本已降至每用户小时 1-2 美元,并有望进一步降低。
这一突破标志着互动视频领域的技术革新。Odyssey 实时生成模型能按需动态构建故事情节,彻底摆脱传统的线性制作的束缚,为游戏、影视及教育等领域开创沉浸式、可自由探索的全新娱乐形态。
使用入口:前往 Odyssey 官网申请体验(odyssey.world)。
权威信源:https://odyssey.world/introducing-interactive-video
北京人形机器人创新中心
牵头制定全球首个《人形机器人智能化分级》
北京人形机器人创新中心牵头,联合上海人形机器人创新中心、浙江人形机器人创新中心,以及优必选、宇树科技、中国信通院和工联院等主流企业及科研院所共同制定了全球首个《人形机器人智能化分级》(T/CIE 298-2025)团体标准,通过构建 「四维五级」 评价框架,为人形机器人智能化技术、产品研发、测试、管理及场景应用提供统一技术语言和评价体系,助力产业从「功能导向」向「智能进化」迈进。
权威信源:https://x-humanoid.com/news-view-201.html | 官方介绍
> “人形机器人的发展,有一个标准了 🤖”
昆仑万维
Opera Neon 智能 Agent 浏览器,开启内测
Opera Neon 是 Opera 浏览器推出的首款 AI Agent 浏览器,其核心功能由三大模块组成:Neon Chat 负责智能交互,Neon Do 专注于任务自动化,而 Neon Make 则提供创新的内容创作支持。
其中,Make 是真正新颖的功能,利用云技术为用户执行复杂的任务,例如生成报告、设计游戏原型、构建 Web 应用,甚至能在离线状态下编写代码,进一步拓展了浏览器的能力边界。
使用入口:前往 Opera Neon 官网申请体验(operaneon.com)。
权威信源:https://blogs.opera.com/news/2025/05/opera-neon-first-ai-agentic-browser | 官方介绍
5 月 29 日
DeepSeek
DeepSeek-R1-0528 推理模型「小升级」,思考更深,推理更强
DeepSeek-R1-0528 是 DeepSeek R1 推理模型的一次重要「小升级」,显著提升了模型处理复杂推理任务、创意写作、工具调用、前端代码生成、角色扮演等方面的能力,改善了模型幻觉。
更新后的 R1 模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。
权威信源:官方介绍
> “还是基于 deepseek-v3 旧版训练的,并不是基于最新的 v3 训练的 🧐”
快手
可灵 2.1 && 可灵 2.1 大师版上线,理解力与生成速度全面升级
可灵 2.1 大师版:更加「听话」,能够更准确地理解和执行用户的复杂指令,针对动作及细节表现具有较大提升,生成速度也更迅速。
可灵 2.1:与 2.1 大师版一样灵动听话,生成速度更快(生成 5s 视频需要 1 分钟左右),支持标准、高品质两种模式,标准模式 5s 低至 20 灵感值。
权威信源:https://app.klingai.com/cn/release-notes
> “2.1 终于有普通版了 🎊 性价比不错,可以大规模商用了”
Grammarly
完成 10 亿美元融资,加速 AI 产品升级与平台化转型
Grammarly 宣布完成 10 亿美元融资,投资方为 General Catalyst。此次融资将重点用于拓展 A I产品线,推动公司从单一的语法检查工具向多功能智能写作平台(Agent)转型。
Grammarly 成立于 2009 年,最初是一款英语语法和写检查的 AI 工具,随后逐步扩展到写作辅助和沟通优化等场景。目前,其日活用户约 4000 万,年收入超过 7 亿美元。
权威信源:https://www.reuters.com/business/grammarly-secures-1-billion-general-catalyst-build-ai-productivity-platform-2025-05-29
> “一个看似简单的语法纠错需求,也可以生长出巨头 🚀”
5 月 30 日
字节跳动
Web-Bench 编程能力基准测试,评估模型在复杂 Web 全栈任务中的表现(开源)
Web-Bench 是字节开源的一项基准测试,旨在系统评估大模型在复杂全栈 Web 开发任务中的综合能力,重点考察模型对项目上下文的理解能力、技术方案的连贯性实现,以及对依赖关系的处理水平。
该基准由资深工程师团队设计,包含 50 个高难度项目,每个项目分解为 20 个顺序关联的子任务,模拟真实开发场景中需求分析、技术实现和调试优化的完整流程。作为首个专注于全栈 Web 开发的评估体系,Web-Bench 填补了现有软件工程基准的空白。
使用入口:开源;前往 HugingFace 获取数据(huggingface.co/datasets/bytedance-research/Web-Bench);前往 Github 获取代码(github.com/bytedance/web-bench)。
权威信源:https://huggingface.co/spaces/bytedance-research/Web-Bench-Leaderboard | 官方介绍
小米
Xiaomi MiMo-VL 多模态大模型(开源)
Xiaomi MiMo-VL 是小米推出的多模态大模型,在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,在 GUI Grounding 任务上比肩专用模型,在多模态推理任务上表现优秀。
使用入口:开源;前往 HugingFace 获取模型(huggingface.co/XiaomiMiMo);前往 Github 获取基准测试(github.com/XiaomiMiMo/lmms-eval)。
权威信源:官方介绍
> “小米开始在大模型领域发力,表现都比较亮眼 💡”
Black Forest Labs
FLUX.1 Kontext 图像生成与编辑模型,角色一致性能力亮眼
FLUX.1 Kontext 图像生成与编辑模型,通过融合文本和图像输入,可精准理解上下文关系,并支持对图像特定区域进行局部修改,同时保持其他部分不受影响。其核心优势在于角色一致性控制、高精度局部编辑、风格化参考适配以及高效迭代能力。
FLUX.1 Kontext 提供了三个版本,FLUX.1 Kontext [pro] 专注于快速迭代编辑,FLUX.1 Kontext [max] 追求更高的性能和质量;FLUX.1 Kontext [dev] 开源轻量级版本,目前处于私测阶段。
使用入口:前往 KreaAI、Freepik、FAL、Replicate 等合作伙伴官网体验 FLUX.1 Kontext [max] 和 FLUX.1 Kontext [pro]。
权威信源:https://bfl.ai/announcements/flux-1-kontext
> “解决了 gpt-image-1 人物一致性的问题,图像编辑领域的 New King 👑”
ElevenLabs
Conversational AI 2.0 企业级语音 Agent 平台
Conversational AI 2.0 是 ElevenLabs 推出的新一代企业级语音交互平台,通过先进的对话模型与多语言功能,为用户提供自然流畅、响应精准的对话体验。该平台适用于客户服务、营销推广、个性化学习及多角色叙事等多样化场景。
平台的核心优势在于其强大的多语言支持与智能化功能。它可自动识别并切换超过 32 种语言,无需人工干预即可实现跨语言无缝对话。同时,内置的 RAG 系统能实时从外部知识库检索信息,确保对话内容的准确性与时效性。
使用入口:前往 ElevenLabs 官网尝试(elevenlabs.io/app/conversational-ai/agents)。
权威信源:https://elevenlabs.io/blog/conversational-ai-2-0
Perplexity
Labs 智能体创作平台,一站式生成报告、演示与可视化项目
Labs 是 Perplexity 推出的一项新功能,能够一站式生成分析报告、演示文稿、动态仪表盘、轻量级网站等各类项目,帮助用户将创意转化为现实。
在使用 Labs 过程中,网络浏览、代码执行、图表/图像生成等多个工具协同工作,将原本复杂的工作流进行了整合,大大提升了创作效率。
使用入口:前往 Perplexity 官网体验(perplexity.ai/labs)。
权威信源:https://www.perplexity.ai/hub/blog/introducing-perplexity-labs
5 月 31 日
VAST
Tripo Studio 工作站上线,实现一站式 3D 建模
Tripo Studio 是一款专为 3D 创作者设计的原生工作空间,通过整合模型生成、编辑、细化及导出功能,实现从创意到成品的全流程覆盖。
该平台基于 Tripo 的成熟模型技术,新增多项创新功能:智能部件分割可快速拆解复杂模型,智能低模生成能自动优化网格结构,贴图魔法笔刷支持高效细节绘制,而万物自动绑骨则大幅简化角色动画制作。
使用入口:前往 Tripo Studio 官网体验(studio.tripo3d.ai)。
权威信源:https://www.tripo3d.ai/blog/introducing-tripo-studio
> “从模型到应用,Tripo 要打造 3D 领域的完整生态 🥳”
Gemini App(应用)近期重要更新汇总
在 Google I/O 2025 大会前后,Gemini 应用迎来一系列功能升级,进一步强化 AI 在多场景下的应用能力:
- 图片编辑:快速优化和处理图像(5月1日)
- Gemini Advanced 与 GitHub 连接:提升开发者协作与代码管理效率(5月14日)
- 音频概述(Audio Overviews):将文档、幻灯片等资料转换为播客风格的双 AI 对话摘要,帮助用户高效获取核心信息(5月19日)
- 深度研究(Deep Research):支持文件上传分析,并计划未来整合 Google Drive 和 Gmail 数据(5月21日)
- 画布(Canvas):新增的「Create」按钮实现了一键生成互动式内容(如网页、播客或测验),无需复杂指令输入(5月21日)
- Gemini in Chrome:桌面用户可直接通过浏览器侧边栏调用 AI,实现即时摘要、概念解释及跨标签页问答(5月21日)
- 使用入口:前往 Gemini App 官网体验(gemini.google.com)。
权威信源:https://x.com/GeminiApp
OpenAI
ChatGPT 近期重要更新汇总
OpenAI 为 ChatGPT 推出多项功能优化与升级,涵盖模型行为改进、开发者工具增强及科研场景支持:
- GPT-4o 新版本「过度迎合用户」的问题:发布修复方案并公开长期改进计划,提升模型应答的平衡性与客观性(5月2日)
- 新增 GitHub 代码库直连功能:支持 Agent 深度分析源码及 PR 内容,生成附带精准引用的技术报告(5月9日)
- GPT-4.1 和 GPT-4.1 mini:正式上线 ChatGPT,专精于代码任务和指令跟随,速度更快,适合日常编码需求(5月15日)
- Operator:更新至最新的推理模型 o3(5月24日)
- RDKit 库:为化学、生物学等学科提供分子结构分析、编辑与可视化支持(5月24日)
- 使用入口:前往 ChatGPT 官网体验(chatgpt.com)。
权威信源:https://x.com/OpenAIDevs
Powered by 带带弟弟排版器 Pro