🌟🌟🌟 限时快闪 🌟🌟🌟
今日有「赛博精酿」酒局
AI 从业者限定
如果你能在今晚 7 点半前到这
跟老板说「赛博禅心」
我请你喝一杯
快闪地址(今晚限定):
口袋啤酒屋 pocket
海淀区中关村街道中关村南三街18号
北京卫星制造厂科技园1幢2层201露台
本篇作者
Jomy@302.ai
南乔 River
🧭 时光机
11 月 1 日
Google ● Google Search 实时搜索功能上线
OpenAI ● ChatGPT Search 实时搜索功能上线
Anthropic ● Claude 推出桌面客户端
Suno ● Personas 功能上线
Runway ● Gen-3 Alpha Turbo 支持高级摄影机控制功能
FishAudio ● Fish Agent 开源
Decart AI X Etched ● Oasis 世界上首个实时生成的 AI 游戏
Omnivore 宣布加入 ElevenLabs
上海人工智能实验室 ● LLaMA-o1 开源
知乎直答 ● 专业搜索功能开放
智谱 ● Z 基金 (智谱生态基金) 近期完成首关
11 月 2 日
Anthropic ● Claude Visual PDFs 功能开放
11 月 3 日
15 岁开发者 ProgramZmh 开源项目被数百万收购
11 月 4 日
xAI ● API 正式公测 (有羊毛可薅🐏
Anthropic ● Claude 3.5 Haiku 模型上线
NVIDIA ● AI Blueprint 框架发布
11 月 5 日
腾讯混元 ● Hunyuan-Large 和 Hunyuan3D-1 开源
昆仑万维 ● 天工 AI 高级搜索功能正式上线
Jina AI ● simple-qwen 系列模型开源
11 月 6 日
Recraft ● Graphic Design Generator 海报生成功能上线
InstantX ● Regional-Prompting-FLUX 文生图区域内容精准控制技术开源
11 月 7 日
OpenAI ● 购入 chat.com 域名
Black Forest Labs ● FLUX1.1 [pro] 模型升级
Krea AI ● Lora 训练功能开启邀测
Microsoft ● Magentic-One 通用多智能体系统开源
字节跳动 X 清华大学 ● X-Portrait 2 人像动画技术发布
11 月 8 日
智谱 ● CogVideoX v1.5 视频模型开源
字节跳动 ● 即梦 AI S2.0 全新视频模型开放
11 月 9 日
Text Behind Image ● 图片编辑工具在 𝕏 爆火
OpenAI 研究副总裁 Lilian Weng 宣布离职
11 月 10 日
The Information ● 发文指出 Scaling Law 可能失效了
11 月 11 日
NVIDIA ● Edify 3D 生成模型
Google ● AlphaFold3 模型开源
字节跳动 ● SeedEdit 图像编辑模型上线
月之暗面 ● 创始人杨植麟陷入诉讼风波
11 月 12 日
BRIA AI ● RMBG-2.0 背景去除模型开源
阿里国际 ● Accio 全球首个 B2B AI 原生搜索引擎开放
百度世界 2024 大会 ● 发布小度 AI 眼镜,秒哒,自由画布等产品
秘塔 AI 搜索 ● 上线「专题」功能
智谱 ● 企业 Agent 平台智谱清流上线
会读 ReadFlow 将用户迁移至 知我 AI
11 月 13 日
Greg Brockman 结束休假重返 OpenAI
Google X University of Washington ● Fashion-VDM 虚拟试衣技术发布
DeepL ● DeepL Voice 语音翻译解决方案
StackBlitz ● bolt.new 上线 4 周成绩亮眼
Common Corpus ● 全球最大规模的多语言开放预训练数据集开源
阿里巴巴 ● 通义千问代码模型 Qwen2.5-Coder 全系列正式开源
生数科技 ● Vidu-1.5 视频生成模型发布
阿里巴巴 ● 通义千问将起诉前员工周畅违反竞业协议
11 月 14 日
OpenAI ● ChatGPT 桌面客户端 Windows 版发布
Google ● Gemini-Exp-1114 模型登上 Chatbot Arena 榜首
腾讯元宝 ● 2.0 版上新
科大讯飞 ● 星火多模态交互大模型正式上线
京东 X 浙江大学 ● JoyVASA 音频驱动生成面部视频项目开源
11 月 15 日
字节跳动 ● 即梦 AI P2.0 Pro 和 S2.0 Pro 全量开放
腾讯 ● ima.copilot 智能工作台 Windows 版本上线
阿里巴巴 ● 通义代码模式正式上线
11 月 16 日
Codeium ● Windsurf 发布
11 月 17 日
xAI ● 研究员 Hieu Pham 发帖称 Grok-3 模型证明了黎曼猜想 - it’s a joke。
月之暗面 ● 数学推理模型 k0-math 发布
11 月 18 日
Mistral AI ● Pixtral Large 多模态模型开源,在线聊天应用 Le Chat 更新
Rokid X 暴龙眼镜 ● Rokid Glasses 智能眼镜发布
11 月 19 日
Perplexity ● 推出 AI 购物功能
Fireworks AI ● f1 多模型协作模型发布
Ai2 X University of Washington X Meta ● OpenScholar 学术搜索模型上线
11 月 20 日
Suno ● Suno V4 模型发布,Remaster 和 ReMi 功能上线
DeepSeek ● 推理模型 DeepSeek-R1-Lite 预览版正式上线
昆仑万维 ● 天工 Skyo 实时语音对话助手发布
Menlo Ventures ● 2024 年企业 AI 使用情况调查报告发布
11 月 21 日
Black Forest Labs ● FLUX.1 Tools 系列工具开源
Ai2 ● Tülü 3 系列大模型开源
搜狗输入法 ● 基于腾讯混元大模型,进行了智慧升级
阿里巴巴 (蚂蚁-支付宝) ● EchoMimicV2 数字人技术项目开源
11 月 22 日
Amazon 宣布向 Anthropic 再投资 40 亿美元
阶跃星辰 ● Step-1V 拿下 Chatbot Arena 榜单国产第一,Step-2 拿下 LiveBench 榜单国产第一
11 月 23 日
Lightricks ● LTX-Video 实时视频生成模型开源
Runway ● Expand Video 功能发布
11 月 24 日
Cursor ● Agent 功能上新
11 月 25 日
Anthropic ● 发布开源 MCP 协议
AndrewNG (吴恩达) ● aisuite 大模型套件开源
阿里巴巴 ● Marco-o1 开放型问题推理模型开源
阿里巴巴-蚂蚁技术研究院 ● MagicQuill 交互式 AI 图像编辑工具开源
得到 ● Get 笔记移动端 App 正式上线发布
11 月 26 日
OpenAI ● 疑似 Sora 内测版本被泄露 (更像是自导自演)
NVIDIA ● Fugatto 音频模型
Runway ● Frames 图像生成模型发布
Luma ● Dream Machine 创作平台大升级
特朗普称将任命人工智能部长
11 月 27 日
ElevenLabs ● GenFM 功能上线
昆仑万维 ● 天工 Skywork o1 正式发布
11 月 28 日
ComfyUI ● 桌面客户端开源
阿里巴巴 ● 千问 QwQ 推理大模型开源
月之暗面 X 清华大学 ● Mooncake 推理系统设计方案开源
360 ● AI 搜索更名为纳米搜索
字节跳动 ● 扣子一站式 AI 应用开发功能内测
11 月 29 日
快手 ● 可灵 AI 试衣功能上线
智谱 Agent OpenDay
11 月 30 日
FishAudio ● fish audio v1.5 即将上线商业版并开源权重
11 月 1 日
Google Search 实时搜索功能上线 Gemini API 和 Google AI Studio
这一升级使 Gemini 模型能够获取最新的搜索数据,显著提升响应的时效性与准确度。
只是个大模型可调用的工具而已,并不是什么全新的搜索引擎。
https://developers.googleblog.com/en/gemini-api-and-ai-studio-now-offer-grounding-with-google-search
OpenAI
ChatGPT Search 实时搜索功能发布,预计数月内将向所有免费用户开放
该功能集成了必应搜索引擎,允许模型实时获取互联网信息,引用并提供信息来源链接,提供更准确的回答。
实测体验中规中矩,没有明显亮点和优势。但同一天发布,刚一下 Google 可能会很开心吧 (o|o)
有朋友试了试,信息时效性不强,猜测是自己的爬虫。
https://openai.com/index/introducing-chatgpt-search
Anthropic
Claude 推出桌面客户端
已经支持 Mac 和 Windows 操作系统。
此举被业内解读为 Anthropic 为后续深度整合操作系统功能铺路。
目前功能与网页版一致,预计月底就会与网页版产生差异化,具体可以查看 11 月 25 号的 MCP 功能。
http://claude.ai/download
Suno
Personas 新功能上线
能够捕捉并保存歌曲的关键元素,比如人声、旋律、情感、风格等等,并保存为独立的创意资产。
后续创作中,可以选中自己的模板,或者其他人公开的模板,快速延续或「复制」已有的音乐风格,并保持一致性。
V4 发布前的小甜点。
https://suno.com/blog/personas
Runway
Gen-3 Alpha Turbo 支持高级摄影机控制功能
在使用文本提示、图像或视频生成新视频时,能够精准控制视频中的镜头移动,实现水平移动、绕拍主体、位置探索、速度变化等效果。
可灵和 luma 都有镜头控制,但是做不到这么精细。
https://help.runwayml.com/hc/en-us/articles/34926468947347-Creating-with-Camera-Control-on-Gen-3-Alpha-Turbo
FishAudio
Fish Agent 端到端语音处理模型开源
集成了自动语音识别 (ASR) 和文本到语音 (TTS) 技术,无需传统的语义编码器/解码器,即可实现语音到语音的直接转换。
模型经过 700,000 小时的多语言音频内容训练,支持包括英语、中文在内的多种语言,能够精准捕捉和生成环境音频信息。
文本方面由 Qwen-2.5-3B 处理。
https://huggingface.co/fishaudio/fish-agent-v0.1-3b
https://github.com/fishaudio/fish-speech
Decart AI X Etched
Oasis 是世界上首个实时生成的 AI 游戏
游戏提供了多种地图供玩家选择,随后的 3 分钟,玩家在游戏中体验到的每一帧都来自扩散模型的实时预测。
游戏画面持续以 20 帧每秒的速度实时渲染,这意味着游戏世界是动态变化的,玩家的每一次操作都能立即影响下一帧的表现。
那这个游戏还能走回头路吗?
https://oasis.decart.ai
Omnivore X ElevenLabs
阅读产品 Omnivore 被 ElevenLabs 收购
Omnivore 是一款开源的「稍后阅读 (read-it-later)」应用,并提供 AI 朗读功能。ElevenLabs 也有同类型软件 ElevenReader。
此次收购之后,双方将共同开发 ElevenReader,增强技术储备和使用体验。
Omnivore 在公告中告知,将在 11 月 30 日关闭服务并删除用户数据。
https://elevenlabs.io/blog/omnivore-joins-elevenlabs
上海人工智能实验室
LLaMA-o1 项目开源
复刻了 OpenAI o1 推理大模型,使用了 Self-Play 强化学习、PPO 多项先进技术。
发布后引起了开源社区的关注。
拉开这个月国内类 o1 模型发布的序幕。
https://github.com/SimpleBerry/LLaMA-O1
知乎直答
专业搜索功能上线
提供 AI 搜索与正版论文库一站式服务。
实测评价:直答终于发挥了它本该有的功能。
https://zhida.zhihu.com
智谱
Z 基金 (智谱生态基金) 近期完成首关
Z 基金正式成立于 2024 年,主要覆盖大模型赛道,侧重早期,管理规模 15 亿元人民币。
https://www.zhipuai.cn/
11 月 2 日
Anthropic
Claude Visual PDFs 功能上线
可以识别上传 PDF 文件 (不超过 100 页) 中的图片和图表。
这个功能是 API 层面的,可以直接将 PDF 传给模型,大大简化了 PDF 使用 AI 分析的实现过程。
本质应该是是用了 Claude 的图像识别模型能力来分析 PDF,而不是简单的 OCR 后再把文本传给大模型。
https://docs.anthropic.com/en/docs/build-with-claude/pdf-support
11 月 3 日
ProgramZmh
15 岁独立开发者 ProgramZmh,开源项目 ChatNio 被数百万收购
从 0 开始到拿到七位数的第一桶金,他仅用了不到两年的时间。
虽然目前只是一名高中生,但是 Zmh 的项目经历已经非常丰富,而且精通全栈开发。
可以去看看小孩哥的即刻帖,青春又自信,非常美好~
https://web.okjike.com/originalPost/672733dadd10af52275889bc
https://zmh.me
11 月 4 日
xAI
xAI API 正式公测
目前只有一个 grok-beta 语言模型,支持 128k token 上下文,支持 Function Call,兼容 OpenAI 和 Anthropic SDK。
实测就一般。
🐏 2024 年年底之前,每月可以领取 25 美元的免费积分。
https://docs.x.ai/api
Anthropic
Claude 3.5 Haiku 模型上线
性能超越 Claude 之前所有模型,官方称其是「迄今为止最快、最智能、最具成本效益的模型」。
BUT! 输入和输出 token 价格都涨了 4 倍,这好像就有点不香了 😅
据观察,没啥人用。还是选择了 sonnet-3.5。
https://www.anthropic.com/claude/haiku
NVIDIA
AI Blueprint 框架发布
支持长视频分析,能够快速总结关键事件和重要时刻,可以帮助企业打造视觉 AI Agent 和 AI 应用。
这使得视频分析和长视频内容处理的效率,实现了革命性提升 📈
https://build.nvidia.com/nvidia/video-search-and-summarization
11 月 5 日
腾讯混元
Hunyuan-Large 开源
总参数量 389B,激活参数量 52B,上下文长度 256K,官方称在绝大多数指标上领先于 LLama3.1-405B 以及 DeepSeek 2.5。
Hunyuan3D-1 开源
支持文字和图像双模态生成 3D 内容,仅需 10 秒即可生成高质量 3D 资产 (轻量版)。
这是混元首次开源,精神可嘉。不过实测感觉确实一般 😏
https://github.com/Tencent/Tencent-Hunyuan-Large
https://github.com/tencent/Hunyuan3D-1
昆仑万维
天工 AI 高级搜索功能正式上线
新版本能更好地解答复杂问题,具有更完备的金融财经和学术数据库。
新上线的 PDF 文档阅读分析功能,RAG 和 搜索能力也都很强。
天工近期更新的产品功能,包括彩页和宝典,都非常不错 👍
https://www.tiangong.cn
Jina AI
3 个小型语言模型 simple-qwen-0.5、topic-qwen-0.5、summary-qwen-0.5 已经开源
解决 RAG 系统里文档分块的难题,找到长文档的最佳分割断点。
问了,目前没有商业化的打算 🙅♂️
用大模型来处理文档切片,提升不是非常多,但是在没有商业化 API 的情况下,还需要本地化部署,是否值得呢。
11 月 6 日
Recraft
Graphic Design Generator 功能上线
简单设置边框和文本布局,就能基于 AI 功能生成精美的海报。
这个功能没出圈,但是他们的 Hard-Flash 风格出圈了,可以生成具有复古胶片感的照片。
前段时间,在 AI 文生图竞技场大杀四方的神秘模型 Red_Panda,就是 Recaft 的新模型 Recaft v3。
这家 2022 年新成立的英国创业公司,来势汹汹。
https://www.recraft.ai
InstantX
Regional-Prompting-FLUX 技术开源
可以精确控制 FLUX 生成图片时每个区域的内容,而且支持和 Controlnet 和 Lora 一起使用。
兼容性强,操作简单直观,大幅提升了 AI 绘画的精确度。
https://github.com/instantX-research/Regional-Prompting-FLUX
11 月 7 日
OpenAI
购入 chat.com 域名,访问可指向 ChatGPT 主页
chat.com 注册于 1996 年,是互联网早期域名之一。2023 年,HubSpot 联合创始人兼 CTO Dharmesh Shah 以 1550 万美元将其买下。
坊间估计 Sam Altman 这次购买域名花费了 1500 - 2000 万美金 💵
域名生意做了几十年,经久不衰。
chat.com
Black Forest Labs
FLUX1.1 [pro] 模型升级,包含 Ultra 模式和 Raw 模式上线
Ultra 模式支持高达 4MP 的分辨率,是标准 FLUX1.1 [pro] 的 4 倍,而且生成时间仍然保持在每样本 10 秒。
Raw 模式能够捕捉到更自然、更少合成感的摄影风格,在人物主题的多样性和自然摄影的真实性方面有显著提升。
Ultra 可以一次生成 4M 的图片,这种感受是革命性的。
因为你会看到 AI 生成的照片有丰富的细节,不再是一个 1M 的糊糊的小图了。
https://blackforestlabs.ai/flux-1-1-ultra
Krea AI
Lora 训练功能开启邀测
用户在网站上传多张图片,即可训练出个性化的角色、风格、产品模型。操作简单。
估计是用的 Fal 的快速训练 lora API(不负责任的猜测)
https://krea-ai.com/krea-ai-introduces-lora-support
Microsoft
Magentic-One 通用多智能体系统开源
基于 AutoGen 框架构建,由主 Agent Orchestrator 和 4 个各司其职的子 Agent 组成。
这些 Agent 协同工作,就像一个高效的团队,共同完成复杂的任务。
https://aka.ms/magentic-one
字节跳动 X 清华大学
X-Portrait 2 人像动画技术发布
上传一张静态人像图 & 一段有表情变化的表演视频,就能一键将后者的表情迁移到前者的人像上面。
也就是,可以让一张人像完成各种给定视频里的面部动作,而且头部的运动、微小的表情、强烈的情绪等都能被更好地传达!
官方说比 Runway Act-One 要好👀
https://byteaigc.github.io/X-Portrait2
11 月 8 日
智谱
CogVideoX v1.5 视频模型开源
包含 CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V 两个版本。
CogVideoX v1.5 包含 5/10 秒、768P、16 帧的视频生成能力,I2V 模型支持任意尺寸比例,大幅提升图生视频质量及复杂语义理解。
也将同步上线到清影,并与新推出的 CogSound 音效模型结合。
智谱又又又发新模型,但是啥时候可以在官方 API 提供呢。
https://github.com/thudm/cogvideo
https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
字节跳动
即梦 AI S2.0 全新视频模型正式开放使用
在 即梦 AI 移动端 App 或官网都可以体验。
https://jimeng.jianying.com
11 月 9 日
Text Behind Image
在 𝕏 (Twitter) 爆火的一款图片编辑工具
可以在图片角色与背景之间巧妙添加文字,瞬间生成高大上的海报。
开发者年仅 16 岁,用 Cursor 和 V0 仅用了三个小时就搓出了这个工具 👀
https://text-behind-image.com
OpenAI X Lilian Weng
OpenAI 研究副总裁 (安全) Lilian Weng 发帖正式宣布离职
不过,她没有公布接下来的去向。
此前,她曾出现在 B 站「bilibili 超级科学晚」现场,进行了一场关于「人工智能安全」的主题演讲。当时,就有朋友猜测她将离职。
翁茘 (Lilian Weng) 和她的博客 Lil'Log 在 AI 圈非常知名。
2023 年她更是一篇长文直接把 Agent 带入公众视野 ↓↓↓
https://lilianweng.github.io/posts/2023-06-23-agent
https://www.bilibili.com/video/BV19dSHYUEAo
11 月 10 日
The Information
The Information 发文指出 Scaling Law 可能失效了,模型预训练「撞墙」了。
随后,Ilya Suskever、Sam Altman、Yann Lecun、Dario Amodei 纷纷发言表达自己支持或反对的观点。大概梳理下出场人物和各自观点:
开始,The Information 报道,OpenAI 的训练和模型进化速度变缓,导致 GPT-5 难产已成定局
然后,又有某个人在 𝕏 上说,似乎另一家在训练的时候遇到了一个未曾遇到的 Huge Wall
随后,Bloomberg 把范围扩大到 OpenAI、Anthropic、Google,发现大家都在推迟新模型发布
但是,AI 社区内大家信心还是很强, 特别是对推理的 Scaling Law
然后,Ilya Suskever 出来补刀:I told you so
果然,Yann Lecun 也抓紧来凑热闹:I told you so
还有,Anthropic CEO Dario Amodei 出来押注 Scaling Law 还继续存在
Sam Altman 则选择直接嘴硬:there is no wall
Scaling Law 本质是一个对未来的美好期望,不是一个 Law。
https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows
11 月 11 日
NVIDIA
Edify 3D 生成模型发布
可以在 2 分钟内生成高质量 3D 资产,带有有序 UV 贴图、4K 纹理和 PBR 材质。
https://build.nvidia.com/shutterstock/edify-3d
AlphaFold3 模型开源
来自生物医药、生命科学等各个领域的科学家们都可以免费下载模型代码,自行运行模型开展工作。
此举直接获得了 Nature 亲自撰文推荐。
对!就是今年拿了诺贝尔化学奖奖的那个模型~
https://github.com/google-deepmind/alphafold3
字节跳动
SeedEdit 图像编辑模型上线
支持自然语言编辑图像。即梦 AI 网页端和豆包网页端都可以使用。
与 Midjourney 上个月新增的纹理重绘和局部重绘功能相比,SeedEdit 胜在操作简便,艺术效果和细节刻画还是 Midjourney 更胜一筹。
据我观察,这个不是局部重绘,而是保持一致性的重新生成图片,一个人脸,多修改几次,就变成另外一个人脸了。
https://team.doubao.com/en/special/seededit
月之暗面
月之暗面创始人杨植麟、联合创始人兼 CTO 张宇韬,近日被循环智能时期投资人在香港提起仲裁,相关电子仲裁申请书也已递交 HKIAC (香港国际仲裁中心)。
11 月 12 日
BRIA AI
RMBG-2.0 背景去除模型开源
使用了 BiRefNet 架构,准确性和精度都有保障。
简单图例的实测效果很好,直追抠图界顶流 remove.bg
一些疑难的例子还是处理得不好,离人工抠图还是有一丁点距离。
https://huggingface.co/briaai/RMBG-2.0
https://blog.bria.ai/introducing-the-rmbg-v2.0-model-the-next-generation-in-background-removal-from-images
阿里巴巴 ● 阿里国际
Accio 全球首个 B2B AI 原生搜索引擎
通过 AI 重塑的采购能力,为海外的最终采购方提供 AI 采购顾问服务。
https://www.accio.com
百度世界 2024 大会
百度在大会上公布的关键技术和出圈工具,主要是以下几个。
检索增强的文生图技术 (iRAG):解决大模型在图片生成上的幻觉问题。
小度 AI 眼镜:据称是全球首款搭载中文大模型的原生 AI 眼镜,具备第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘等功能。
秒哒:无代码工具,不用写代码就能实现任意想法。
自由画布:在一块白板上,通过简单操作,即可实现输入、编辑、创作、分享等功能。
百度发布了 自由画布 之后,flowith 创始人在小红书发帖称,这款产品与 flowith 惊人相似。并且,百度曾经借举办海外 AI 创业大赛的名义,邀请提交 bp,沟通会议时问的也是技术实现细节。
目前,帖子已经无法访问。
不过,从产品交互上来说,百度画布与 Figma Jambot 的相似度也很高啊 👀
https://cloud.baidu.com/product/AMIS/miaoda.html
https://wenku.baidu.com/pcactivity/freeBoard
秘塔 AI 搜索
上线「专题」功能
资料上传知识库后即可定制数据源,进行针对性地互动。
RAG 能力和搜索能力都非常棒,产品使用体验流畅!
用户流程非常清晰,传文件+文件内搜索,有 glean 的感觉了。
https://metaso.cn
智谱
智谱清流上线
专为企业 AI 应用落地打造的 AI 智能体开发平台。
清流提供 Agents、Workflow、知识管理、批量效果调优等能力,支持 API、SDK、URL 三种集成方式。
https://bigmodel.cn/agent
会读 ReadFlow X 知我 AI
会读 ReadFlow 是一款 AI 阅读工具,核心功能是通过微信对话发送文章链接,直接生成摘要。后续又增加了小报、归档、标签等新功能。
创始人发文宣布,将会读用户迁移至同类型产品知我 AI。
知我 AI 随后发文,表示会坚定地接好这一棒。
非常体面的收场。
https://knowme.xiaoduoai.com
11 月 13 日
OpenAI
Greg Brockman 宣布结束假期,以总裁身份重返 OpenAI
他今年 8 月曾发推表示要休假到 2024 年底。本来以为是休假后离职的常规套路,意料之外情理之中的,他选择了回归 OpenAI。
Google X University of Washington
Fashion-VDM 技术发布
可以通过视频扩散模型 (VDM) 创建逼真的虚拟试衣视频。
只需要提供一件衣服图片和一段人物视频,就能生成一段这个人穿着这件衣服的视频,而且效果超级逼真!
https://johannakarras.github.io/Fashion-VDM
DeepL
DeepL Voice 语音翻译解决方案
适用于多语言线上会议与面对面对话的实时翻译,目前支持 33 种语言。首批发布了两款产品:
Voice for Meetings 能让线上会议时各方使用母语发言,其他人可以收到实时翻译的字幕。
Voice for Conversations 能在面对面交流时,在移动设备上呈现实时字幕翻译。
https://www.deepl.com/en/blog/deepl-voice
StackBlitz X Anthropic
AI 编程工具 bolt.new 上线 4 周取得了非常耀眼的成绩
ARR 收入从零到 400 万美元,每周使用人数超过 10 万,Claude 调用量每天翻倍增长。
被 Anthropic 官方选为优秀案例进行展示。
这个产品基于他们自己开发的 https://webcontainers.io,也算是厚积薄发了。
https://www.anthropic.com/customers/stackblitz
Common Corpus
全球最大规模的多语言开放预训练数据集开源
包含 2,003,039,184,047 个 tokens,全部来自合法许可的公开内容。
数据集涵盖科学、法律、新闻、文化、代码等多个领域,这种多样性和深度无疑为研究者提供了丰富的资源。
https://huggingface.co/datasets/PleIAs/common_corpus
https://huggingface.co/blog/Pclanglais/two-trillion-tokens-open
阿里巴巴 ● 通义
通义千问代码模型全系列正式开源
共 6 款 Qwen2.5-Coder 模型,其中 Qwen2.5-Coder-32B-Instruct 代码能力追平 GPT-4o。
月底回头看,用的人不多。说明还是不够好吗 👀
https://github.com/QwenLM/Qwen2.5-Coder
https://huggingface.co/collections/Qwen/qwen25-coder-66eaa22e6f99801bf65b0c2f
生数科技
Vidu-1.5 发布
这是全球首个支持多主体一致性的多模态大模型,支持人物、物体和环境等主体的一致性。
Vidu 从最早主打快速生成视频,到今天的主体一致性,终于业界领先了。
https://www.vidu.studio
阿里巴巴 X 字节跳动
阿里巴巴通义千问已递交劳动争议仲裁申请书,将起诉前员工周畅违反竞业协议
周畅是阿里通义千问大模型的技术负责人,2024 年 7 月被爆离职创业,方向或为 AI 应用。期间有诸多投资机构接触计划投资,但最后选择加入字节跳动,或负责 AI 硬件。(雷锋网)
11 月 14 日
OpenAI
ChatGPT 桌面客户端 Windows 版面向所有用户开放
快捷键调用 ChatGPT,Mac 版是 Option + Space,Windows 版是 Alt + Space。
https://openai.com/chatgpt/download
Gemini-Exp-1114 模型登上 Chatbot Arena 榜首
好景不长,ChatGPT-4o-lastest (2024-11-20) 重回巅峰。
一天之后,Gemini-Exp-1121 杀出来,又抢走了第一名。
基本是你追我赶的态势。
实测一般。
腾讯 ● 元宝
腾讯元宝 2.0 版本上新
除了模型和交互更新外,最亮眼的有两点:
一是整合了公众号/视频号/QQ 音乐等信息资源;
二是打通了元宝-文档-电脑管家-输入法之间的协作工作流。
腾讯元宝 App 同步上线各大应用搜索商店。
https://yuanbao.tencent.com/chat
科大讯飞
星火多模态交互大模型正式上线
新增多模态、超拟人、个性化能力,实现「语音-视觉-数字人交互」三合一。
追上了智谱「视频通话」功能。
而且,通话中的数字人功能很新颖,这点值得表扬 👍
https://xinghuo.xfyun.cn
京东 X 浙江大学
JoyVASA 音频驱动生成面部视频项目开源
可以通过单张图片和音频片段,生成人类或动物面部的对嘴同步视频。
而且效果能做到面部表情和头部动态自然。
https://jdh-algo.github.io/JoyVASA
11 月 15 日
字节跳动 ● 即梦 AI
P2.0 Pro 和 S2.0 Pro 全量开放使用
P2.0 Pro 具有极高提示词遵循能力,对复杂的提示词仍然可以保持严格的遵循。
S2.0 Pro 具有首帧一致性,可以保持与用户输入图的一致性、色彩等细节还原。
https://jimeng.jianying.com
腾讯
ima.copilot 智能工作台 Windows 版本上线
与 Mac 版本胜利会师 ✌
目前核心功能时文档解读和智能写作,而且两个功能之间已经打通,可以形成有效的工作流。
用来阅读和搜索公众号文章也非常不错,体验很流畅。
经过测试,ima.copilot 的搜索和 RAG 能力都还有待加强 (跟秘塔相比)。
最大的优势是守着公众号这座金山⛰ 期待后续更新~
https://ima.qq.com
阿里巴巴 ● 通义
通义代码模式正式上线
可以通过独立窗口预览前端实现效果,而且内置了很多示例。
具体的实现效果,基本与 DeepSeek 持平,距离 Claude Artifacts 还有差距。
以下是可以体验 Artifacts 功能的网站/开源项目清单。🔮表示需要魔法。
Claude: https://claude.ai 🔮
302:https://302.ai (注意!已经实现所有模型都能使用 Artifacts)
Monica: https://monica.im 🔮
V0: https://v0.dev 🔮
Le Chat: https://chat.mistral.ai/chat
DeepSeek: https://chat.deepseek.com
通义代码模式:https://tongyi.aliyun.com
Fragments by E2B,界面和体验无限接近于 Claude,开源:https://fragments.e2b.dev 🔮
Llama Coder,通过提示词创建应用并快速发布:https://llamacoder.together.ai 🔮
Screenshot to Code,将截屏/设计转换为 HTML / Tailwind / React / Vue 代码,开源:https://screenshottocode.com 🔮
StreamlineAI,将 Artifacts 功能拓展到任意 LLM:https://streamlineai.awesomeprompt.net
简化浏览器插件,将 Artifacts 功能拓展到任意 网页:https://jianhua.art
Claude Artifacts Showcase,Artifacts 玩法收集 (支持提交自己的项目):https://claudeartifacts.com
WebVideoCreator,将 Artifacts 生成的网页动画渲染为视频,开源:https://github.com/Vinlic/WebVideoCreator
https://tongyi.aliyun.com/qianwen
11 月 16 日
Codeium ● Windsurf
Windsurf AI 编程 IDE 发布
提出了 Agent IDE 这种新的开发范式,即根据项目需求自动设计不同职能的 Agent,尽力释放人类的机械工作。
Windsurf Cascade 功能对应 Cursor Composer,并在体验上有很大提升,包括深入理解现有代码库,上下文检索、对编辑器内操作的实时感知等。
采访公司的几个程序员,反馈不如 Cursor,主要是 tab 自动补全有差距,仅代表个人意见 (by Jomy)
本月各种编程工具陆续推出,让人应接不暇,而且在开发者群体中的口碑都很不错。
AI Coding 终于摆脱了造神叙事,真正进入到了落地爆发阶段。想系统了解 AI 辅助编程工具和使用方式,推荐 @idoubi 这篇长文 ↓↓↓
关于 AI Coding 赛道的分析,有篇文章「Code Smarter, Not Harder」写得非常好,划分了 L1 - L5 发展阶段 (当前处于 L2),并且分析了当前遇到的挑战,给出了可能的应对方案 ↓↓↓
https://codeium.com/windsurf
11 月 17 日
xAI ● Grok-3 证明了黎曼猜想?
研究员 Hieu Pham 在 𝕏 (Twitter) 发帖称,正在训练中的 Grok-3 模型证明了黎曼猜想 (Riemann's hypothesis),如果验证属实将停止模型训练,以此保证人类安全。
现在访问这条帖子,你可以看到:Hieu clarified it’s a joke。
😐😐😐
https://x.com/hyhieu226/status/1858028679747829769
月之暗面
数学推理模型 k0-math 发布
数学能力对标 OpenAI o1-mini 和 o1-preview。Kimi 网页端即可体验,实测效果还可以。
发布之后,最出圈的竟然媒体文章的标题,「杨植麟回应一切」「并没有回应一切」「回应不了一切」🤣
https://kimi.moonshot.cn
11 月 18 日
Mistral AI
Pixtral Large 多模态模型开源
参数 124B,支持 128K 上下文,能理解文本、图表、图像等。
在线聊天应用 Le Chat 更新
增加了网页搜索、Canvas、图像生成、图像理解、PDF 理解、AI Agent 等功能。
实测多模态模型还不错,Le Chat 很好用!
但是新的 large-2 就拉垮了。
https://chat.mistral.ai/chat
https://mistral.ai/news/pixtral-large
Rokid X 暴龙眼镜
Rokid Glasses 智能眼镜发布
可以打电话、听音乐、拍照。集成的通义千问大模型,还支持 AI 问答搜索、识物、拍照答题、多语种翻译等功能。
售价 2499 元,将于 2025 年的三四月份正式发售。
自从 Meta 和雷朋合作的 AI 眼镜 Ray-Ban 卖爆之后,各厂都开始发布和准备发布自家的 AI 智能眼镜。
本月看到相关消息的就有百度、阿里、小米、影目、三星、亚马逊、大朋、苹果、致敬未知、KTC…
继「百模大战」之后,「百镜大战」又将拉开序幕?
11 月 19 日
Perplexity
推出 AI 购物功能,面向 Pro 订阅者开放
一键完成从搜索到购买的全链路,无需离开 AI 搜索引擎页面就可以下单购买产品。
进军电商业务,就能撑起 pplx 的估值么👀
https://www.perplexity.ai
Fireworks AI
f1 模型发布,让多个开源模型协作
可以通过协作模式解决更复杂问题,比如数学推导、编程、逻辑等任务。
https://fireworks.ai/blog/fireworks-compound-ai-system-f1
Ai2 X University of Washington X Meta
OpenScholar 学术搜索模型上线
通过 RAG 技术外接一个 4500 万篇论文的数据库,帮助科研人员高效完成文献搜索和文献综述。
数据、代码、模型权重已经全部开源。
Ai2 (艾伦人工智能研究所,Allen Institute for AI) 这个月很猛啊!
连续发布开源模型,而且是全方位彻底的开源,初心仍在。
大模型开源,比如 LLaMa,大多数情况下只开源权重。这也是前段时间 Meta 被国际开源组织批评滥用「开源」这个词的原因。
其实,对于开源来说,数据、代码、评估标准等都更加重要。@赛博禅心 有一篇科普文,可以帮助你了解各个部分的意义↓↓↓
https://openscholar.allen.ai
https://allenai.org/blog/openscholar
11 月 20 日
Suno
Suno V4 模型发布,生成音乐质量有了巨大进步
模型效果已经非常惊艳,几乎达到了取代真人创作的水平。
还有一个亮点功能是 Remaster,用户可以升级重制原有 AI 音乐,优化音质和唱词。
另一个亮点功能是 ReMi,用户可以通过 ReMi 协助歌词创作,生成更有创意并且更符合音乐性的歌词内容。
根据使用反馈,遥遥领先 Udio
https://suno.com
DeepSeek
推理模型 DeepSeek-R1-Lite 预览版正式上线
在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,还可以展现了 。已经上线官网,点击「深度思考」按钮即可使用。
实测有点过度思考。
https://chat.deepseek.com
昆仑万维
天工 Skyo 实时语音对话助手发布,预计将于 12 月份上线天工 App。
Menlo Ventures
2024 年企业 AI 使用情况调查报告发布
Menlo 调研了 600 名企业的 IT 负责人,从企业内部的模型选择、使用场景、考虑因素、部门发展、发展预测等角度进行了数据分析。
可以看 @橘子汽水铺 这篇中文解读
简而言之,Anthropic 很猛,RAG 很猛,AI Coding 很猛;AI 人才短缺。
https://menlovc.com/2024-the-state-of-generative-ai-in-the-enterprise
11 月 21 日
Black Forest Labs
FLUX.1 Tools 系列工具开源,ComfyUI 已经支持
FLUX.1 Fill:局部重绘和扩图模型,官方称其为迄今为止最先进的修复模型
FLUX.1 Depth & Canny:官方 ControlNet 模型,进行结构调节
FLUX.1 Redux:通过提示转换图像风格,进行图像变化和重新设计
这是自 Flux.1 [dev] 模型开源后的又一个开源项目,当得起一声赛博菩萨~
SD 的生态都快被偷完了。
https://blackforestlabs.ai/flux-1-tools
Ai2
Tülü 3 系列大模型开源,目前包含 8B 和 70B 两个版本
未来计划推出 405B 版本。
模型在性能上超越了 Llama 3.1 Instruct 版本,而且是完全开源,提供了详细的后训练技术报告、公开数据、评估代码和训练算法。
https://allenai.org/blog/tulu-3
搜狗输入法 x 腾讯混元
搜狗输入法基于腾讯混元大模型,进行了智慧升级
边输边查功能,输入框即搜索框,点击放大镜即可秒出答案。
等号划词功能,可以查看天气、股价、假期等实时信息。
交互革命的风,终于吹向了国内的输入法产品 🌀
@腾讯科技 有篇主题分析长文,可以看看 ↓↓↓
https://shurufa.sogou.com
阿里巴巴 (蚂蚁-支付宝)
EchoMimicV2 数字人技术项目开源
利用参考图像、音频片段和一系列手部姿势来生成高质量的动画视频
也就说,仅需输入一张参考图像、一段音频及一段手势序列,就可以生成高质量的人物动画视频了!同时还能确保半身数字人与音频内容之间的协调。
官方 Demo 看起来效果非常好,感觉直接逼近 HenGen
https://github.com/antgroup/echomimic_v2
11 月 22 日
Amazon x Anthropic
Amazon 宣布向 Anthropic 再投资 40 亿美元
这笔投资以可转换债券的形式分阶段进行,首笔付款为 13 亿美元。
这是 Amazon 近 30 年最大的一笔对外投资,也是两年来对 Anthropic 的第三次投资,前两次分别为 2023 年 9 月的 12.5 亿美元、2024 年 3 月的 27.5 亿美元。
https://www.aboutamazon.com/news/aws/amazon-invests-additional-4-billion-anthropic-ai
阶跃星辰
阶跃星辰多模态理解大模型 Step-1V
登上 Chatbot Arena Vison 榜单,位列视觉领域中国大模型第一名 (总榜单第十三名)。
阶跃星辰自研的万亿参数语言大模型 Step-2
登上 LiveBench 榜单,是唯一进入榜单前十名的中国语言大模型,位列全球第五。
https://www.stepfun.com
11 月 23 日
Lightricks
LTX-Video 实时视频生成模型开源
以 768x512 分辨率生成 24 FPS 视频,生成速度比观看速度要快,是唯一一个能够实时生成高质量视频的基于 2B 参数 DiT 的视频生成模型 (H100)。
LTX-Video 开源了代码库和模型权重。
实测效果不太行,但是胜在成本很低。
https://github.com/Lightricks/LTX-Video
Runway
Expand Video 功能发布,可以改变视频画幅比例
传统裁剪方式往往会丢失重要细节。而 Expand Video 不是剪掉细节,而是在视频外围边缘扩展内容,确保信息不丢失。
Expand Video 在大多数情况下无需提示词,但添加文本提示词的控制效果和细节呈现会更好。
https://help.runwayml.com/hc/en-us/articles/34926355398675-Creating-with-Expand-Video-on-Gen-3-Alpha-Turbo
11 月 24 日
Cursor
0.43 新版本推出了 Composer 界面、Agent 功能和 Bug 查找器等功能。
此次更新,使得 Cursor 更加直观易用,并极大简化了开发流程。
https://changelog.cursor.com
11 月 25 日
Anthropic
发布开源 MCP 协议,是 Anthropic 版本的 Function Calling,只能用在客户端,需要开发能力。
MCP 的亮点是定义了一套标准且相对完善的协议,对于大模型和应用的生态协同有很大的指导意义。本质上是对 LLM 和 API 调用层进行的优化。
Chat API 的格式,大家基本都跟着 OpenAI 走了。Claude 这把想让 Agent API 的格式,跟着他们走。
https://www.anthropic.com/news/model-context-protocol
https://m.okjike.com/originalPosts/67469876ba0429bf87824471
AndrewNG (吴恩达)
aisuite 大模型套件开源,把 11 家 知名大模型平台集中到了一起,统一了接口,可以用相同的方式调用不同模型。
切换模型时,只需要改动一个字符串,不用在不同的 API 之间摸不着头脑了。
https://github.com/andrewyng/aisuite
阿里巴巴
Marco-o1 开放型问题推理模型开源,模型通过思维链 (CoT) 微调、蒙特卡罗树搜索 (MCTS)、反思机制和创新的推理策略提供支持。
模型目标是解决这个问题:o1 模型能否有效地推广到缺乏明确标准且奖励难以量化的更广泛领域?
https://github.com/AIDC-AI/Marco-o1
Hugging Face: https://huggingface.co/AIDC-AI/Marco-o1
阿里巴巴 ● 蚂蚁技术研究院
MagicQuill 交互式 AI 图像编辑工具开源,用画笔涂抹加一句提示词,就能快速完成图像编辑,
轻量便捷版 PS ❤ 疯狂收割 GitHub Star
https://github.com/magic-quill/magicquill
https://magicquill.art/demo
得到
Get 笔记移动端 App 正式上线发布
这款 AI 笔记应用目前已经包含了网页端、移动端和小程序三种产品形态。
https://www.biji.com
最近各种知识管理应用层出不穷,@samu 整理了一份分类清单,可以按需取用并关注这类产品后续的 AI 演进思路。
RSS 订阅类产品
Feedly: feedly.com
InoReader: innoreader.com
Follow: follow.is
TidyRead: tidyread.ai
传统搜索
Google: google.com
百度:baidu.com
axiv: arxiv.org
天工:tiangong.cn
秘塔:metaso.cn
ThinkAny: thinkany.so
Devv: devv.ai (daiwu.cn)
思维导图/思考白板
XMind: xmind.net
AIFlow:
FunBlocks: app.funblocks.net
文档创作
Evernote: evernote.com
Notion: notion.so
飞书:feishu.cn
语雀:yuque.com
Flomo: flomoapp.com
知识卡片
fastposter: fastposter.net
吉光卡片 (Kiko Card)
流光卡片:fireflycard.shushiai.com
molypix: molypix.ai
11 月 26 日
OpenAI Sora
疑似 Sora 内测版本被泄露
来源是参与早期测试的部分艺术家,他们作为 Red Team 和创意合作伙伴参加测试,却发现被 OpenAI 当成了价值证明的工具。
不过!也有技术大佬从 HF 上的端口信息判断,这是 OpenAI 自导自演的一场营销事件。
经历过「草莓」的我们,应该都懂 🤣
https://huggingface.co/spaces/PR-Puppets/PR-Puppet-Sora
NVIDIA
Fugatto 音频模型
输入可以是文本和音频,输出可以生成/转换为「音乐+人声+声音」的组合。
也就是说,用户只用文本就可以控制输出的音频。非常灵活且酷炫!
思路非常之牛逼。
https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model
Runway
Frames 图像生成模型发布
显著提升了风格控制能力和视觉逼真度,生成作品能非常好地保持风格一致性。
目前,正逐步在 Gen-3 Alpha 中开放 Frames 的访问权限。
https://runwayml.com/research/introducing-frames
Luma
Dream Machine 创作平台大升级
使用自然语言进行全流程创作,并把图像生成和视频生成完美融合到了同一个平台里,而且也是画布流形式的操作界面。
所基于的 Luma Photon 生成模型,也被称为当今最富创造力、最智能、最快速图像 AI 模型。
https://lumalabs.ai/dream-machine
特朗普称将任命人工智能部长
特朗普对外宣布,计划任命一位专门负责人工智能事务的「人工智能部长」,以加强美国在全球 AI 竞赛中的领导地位。
该部门将整合 AI 政策、国家安全和产业发展三方面的工作。
部长人选并未确定。据报道埃隆·马斯克不会担任该职位,但预计他将密切参与相关工作。详细报道 @创头条
特朗普的胜选,对于 AI 乃至科技圈的发展,影响是非常大的。
技术与主权、政治、宗教、经济缠绕在一起,共同决定着未来科技发展的走向。非常复杂。
你可以通过这篇文章,基本了解美国内部精英人士的解读和判断 ↓↓↓
11 月 27 日
ElevenLabs
GenFM 功能上线 ElevenLabs Reader iOS 应用程序
用户上传视频、文本、文档后可以生成一个多语音播客,目前支持 32 种语言。
对标 Google NotebookLM。
最近,国内外出现了很多 AI PodCast 产品。推荐几款比较有特色的,大家可以感受下开发者们的脑洞 ↓↓↓
Google NotebookLM: https://notebooklm.google.com
Google Illuminate,AI 读书产品:https://illuminate.google.com
Meta NotebookLlama,开源版本效果一般:https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama
PodLM,@idoubi 作品 → https://podlm.ai
302 AI 播客生成器,大大大杂糅,各种常见的 AI 生成功能都有了,而且开源了:https://302.ai/tools/podcast
可听,小程序里体验会让震撼加倍,AI 播客的个性化创作距离我们如此之近:http://keting.tech
MemenomeLM,Micrecraft 游戏视频生成 + NotebookLM +语音克隆,思路和 DAU 都非常狂野:https://www.memenome.gg
https://elevenlabs.io/genfm
昆仑万维 ● 天工
Skywork o1 (天工大模型 4.0 o1 版) 正式发布
是国内第一款中文逻辑推理能力的 o1 模型。
其中,Skywork o1 Open 是开源版本,Skywork o1 Lite 和 Skywork o1 Preview 分别对标 OpenAI o1-mini 和 o1-preview 版本。
可在 天工 AI 网页端使用,目前处于内部邀测阶段。
又又是一家国产 o1
https://www.tiangong.cn
11 月 28 日
ComfyUI
桌面客户端开源,适用于 Windows (NVIDIA 显卡) 和 macOS (M 系列芯片)
目前仍处于测试阶段,一起发布的还有一份新手用户操作指南,记得查看 ↓↓↓
https://comfyorg.notion.site
https://www.comfy.org/download
阿里巴巴 ● 千问
QwQ 推理大模型开源
QwQ-32 B-Preview 是实验性研究模型,专注于增强 AI 推理能力,在数学和编程方面表现出色。
官方也说明,在某些领域还有改进空间,期待后续更新。
QwQ (Qwen with Questions) 发音 /kwju:/,类似于单词 quill。
https://qwenlm.github.io/zh/blog/qwq-32b-preview
月之暗面 X 清华大学
Mooncake 推理系统设计方案开源
月之暗面和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量,共建以 KVCache 为中心的大模型推理架构。
https://github.com/kvcache-ai/Mooncake
360
360 AI 搜索 更名为 纳米搜索
官方称其优势是 360 自带的桌面/浏览器/搜索入口,还有周鸿祎自己的 IP 加持。
https://n.cn
字节跳动 ● 扣子
支持一站式 AI 应用开发
扣子平台现已支持 AI 应用开发,轻松构建具备完整业务逻辑和直观用户界面的 AI 应用。AI 应用可以发布为 API 服务、模板,或上架至扣子商店。
其中,应用的业务逻辑由编排好的工作流实现,同时可通过变量、插件、知识库、数据库等方式灵活地与本地或线上数据进行交互。
此外,扣子提供了丰富的页面组件和可视化的编排能力,让你无需写一行代码就可以快速搭建出用户界面。
AI只靠 LUI 是不够的,还是要靠 GUI,个人意见 (by Jomy)
https://www.coze.cn/docs/guides/release_note
11 月 29 日
智谱 Agent OpenDay
最出圈的功能就是 GLM-PC,可以像人一样操作电脑
基于视觉多模态模型实现通用 Agent 技术探索。
在 OpenDay 现场,AutoGLM 给在场数百位嘉宾发送了「AI 给人类发的第一个红包」,并且手机远程指挥电脑自动发送文件。
快手可灵
AI 试衣功能上线
可灵 AI 平台上线 AI 试衣功能,支持用户上传任意一张服装图、一张模特图,一键生成自然贴合的模特试穿效果。
官方API很早就有了,产品走在了API的后面,少见。
https://klingai.kuaishou.com
11 月 30 日
FishAudio
fish audio v1.5 即将上线商业版,同步权重开源
新增支持五个语言 (葡萄牙语、意大利语、荷兰语、波兰语、俄语),并大幅度提高日文性能表现。
https://huggingface.co/spaces/TTS-AGI/TTS-Arena
2022 年 11 月 30 日,ChatGPT 正式发布
两年过去了
世界发生了翻天覆地的变化
但更大的变化还在蕴育之中