11月盘点:AI 行业的产品、事件与趣闻

🌟🌟🌟 限时快闪 🌟🌟🌟

今日有「赛博精酿」酒局

AI 从业者限定

如果你能在今晚 7 点半前到这

跟老板说「赛博禅心」

我请你喝一杯


快闪地址(今晚限定):

口袋啤酒屋 pocket

海淀区中关村街道中关村南三街18号

北京卫星制造厂科技园1幢2层201露台




本篇作者

Jomy@302.ai

南乔 River


 

🧭 时光机

 

11 月 1 日
  • Google  Google Search 实时搜索功能上线

  • OpenAI  ChatGPT Search 实时搜索功能上线

  • Anthropic  Claude 推出桌面客户端

  • Suno  Personas 功能上线

  • Runway  Gen-3 Alpha Turbo 支持高级摄影机控制功能

  • FishAudio  Fish Agent 开源

  • Decart AI X Etched  Oasis 世界上首个实时生成的 AI 游戏

  • Omnivore 宣布加入 ElevenLabs

  • 上海人工智能实验室  LLaMA-o1 开源

  • 知乎直答  专业搜索功能开放

  • 智谱  Z 基金 (智谱生态基金) 近期完成首关

 

11 月 2 日
  • Anthropic  Claude Visual PDFs 功能开放

 

11 月 3 日
  • 15 岁开发者 ProgramZmh 开源项目被数百万收购

 

11 月 4 日
  • xAI  API 正式公测 (有羊毛可薅🐏

  • Anthropic  Claude 3.5 Haiku 模型上线

  • NVIDIA  AI Blueprint 框架发布

 

11 月 5 日
  • 腾讯混元  Hunyuan-Large 和 Hunyuan3D-1 开源

  • 昆仑万维  天工 AI 高级搜索功能正式上线

  • Jina AI  simple-qwen 系列模型开源

 

11 月 6 日
  • Recraft  Graphic Design Generator 海报生成功能上线

  • InstantX  Regional-Prompting-FLUX 文生图区域内容精准控制技术开源

 

11 月 7 日
  • OpenAI  购入 chat.com 域名

  • Black Forest Labs  FLUX1.1 [pro] 模型升级

  • Krea AI  Lora 训练功能开启邀测

  • Microsoft  Magentic-One 通用多智能体系统开源

  • 字节跳动 X 清华大学  X-Portrait 2 人像动画技术发布

 

11 月 8 日
  • 智谱  CogVideoX v1.5 视频模型开源

  • 字节跳动  即梦 AI S2.0 全新视频模型开放

 

11 月 9 日
  • Text Behind Image  图片编辑工具在 𝕏 爆火

  • OpenAI 研究副总裁 Lilian Weng 宣布离职

 

11 月 10 日
  • The Information  发文指出 Scaling Law 可能失效了

 

11 月 11 日
  • NVIDIA  Edify 3D 生成模型

  • Google  AlphaFold3 模型开源

  • 字节跳动  SeedEdit 图像编辑模型上线

  • 月之暗面  创始人杨植麟陷入诉讼风波

 

11 月 12 日
  • BRIA AI  RMBG-2.0 背景去除模型开源

  • 阿里国际  Accio 全球首个 B2B AI 原生搜索引擎开放

  • 百度世界 2024 大会  发布小度 AI 眼镜,秒哒,自由画布等产品

  • 秘塔 AI 搜索  上线「专题」功能

  • 智谱  企业 Agent 平台智谱清流上线

  • 会读 ReadFlow 将用户迁移至 知我 AI

 

11 月 13 日
  • Greg Brockman 结束休假重返 OpenAI

  • Google X University of Washington  Fashion-VDM 虚拟试衣技术发布

  • DeepL  DeepL Voice 语音翻译解决方案

  • StackBlitz  bolt.new 上线 4 周成绩亮眼

  • Common Corpus  全球最大规模的多语言开放预训练数据集开源

  • 阿里巴巴  通义千问代码模型 Qwen2.5-Coder 全系列正式开源

  • 生数科技  Vidu-1.5 视频生成模型发布

  • 阿里巴巴  通义千问将起诉前员工周畅违反竞业协议

 

11 月 14 日
  • OpenAI  ChatGPT 桌面客户端 Windows 版发布

  • Google  Gemini-Exp-1114 模型登上 Chatbot Arena 榜首

  • 腾讯元宝  2.0 版上新

  • 科大讯飞  星火多模态交互大模型正式上线

  • 京东 X 浙江大学  JoyVASA 音频驱动生成面部视频项目开源

 

11 月 15 日
  • 字节跳动  即梦 AI P2.0 Pro 和 S2.0 Pro 全量开放

  • 腾讯  ima.copilot 智能工作台 Windows 版本上线

  • 阿里巴巴  通义代码模式正式上线

 

11 月 16 日
  • Codeium  Windsurf 发布

 

11 月 17 日
  • xAI  研究员 Hieu Pham 发帖称 Grok-3 模型证明了黎曼猜想 - it’s a joke。

  • 月之暗面  数学推理模型 k0-math 发布

 

11 月 18 日
  • Mistral AI  Pixtral Large 多模态模型开源,在线聊天应用 Le Chat 更新

  • Rokid X 暴龙眼镜  Rokid Glasses 智能眼镜发布

 

11 月 19 日
  • Perplexity  推出 AI 购物功能

  • Fireworks AI  f1 多模型协作模型发布

  • Ai2 X University of Washington X Meta  OpenScholar 学术搜索模型上线

 

11 月 20 日
  • Suno  Suno V4 模型发布,Remaster 和 ReMi 功能上线

  • DeepSeek  推理模型 DeepSeek-R1-Lite 预览版正式上线

  • 昆仑万维  天工 Skyo 实时语音对话助手发布

  • Menlo Ventures  2024 年企业 AI 使用情况调查报告发布

 

11 月 21 日
  • Black Forest Labs  FLUX.1 Tools 系列工具开源

  • Ai2  Tülü 3 系列大模型开源

  • 搜狗输入法  基于腾讯混元大模型,进行了智慧升级

  • 阿里巴巴 (蚂蚁-支付宝)  EchoMimicV2 数字人技术项目开源

 

11 月 22 日
  • Amazon 宣布向 Anthropic 再投资 40 亿美元

  • 阶跃星辰  Step-1V 拿下 Chatbot Arena 榜单国产第一,Step-2 拿下 LiveBench 榜单国产第一

 

11 月 23 日
  • Lightricks  LTX-Video 实时视频生成模型开源

  • Runway  Expand Video 功能发布

 

11 月 24 日
  • Cursor  Agent 功能上新

 

11 月 25 日
  • Anthropic  发布开源 MCP 协议

  • AndrewNG (吴恩达)  aisuite 大模型套件开源

  • 阿里巴巴  Marco-o1 开放型问题推理模型开源

  • 阿里巴巴-蚂蚁技术研究院  MagicQuill 交互式 AI 图像编辑工具开源

  • 得到  Get 笔记移动端 App 正式上线发布

 

11 月 26 日
  • OpenAI  疑似 Sora 内测版本被泄露 (更像是自导自演)

  • NVIDIA  Fugatto 音频模型

  • Runway  Frames 图像生成模型发布

  • Luma  Dream Machine 创作平台大升级

  • 特朗普称将任命人工智能部长

 

11 月 27 日
  • ElevenLabs  GenFM 功能上线

  • 昆仑万维  天工 Skywork o1 正式发布

 

11 月 28 日
  • ComfyUI  桌面客户端开源

  • 阿里巴巴  千问 QwQ 推理大模型开源

  • 月之暗面 X 清华大学  Mooncake 推理系统设计方案开源

  • 360  AI 搜索更名为纳米搜索

  • 字节跳动  扣子一站式 AI 应用开发功能内测

 

11 月 29 日
  • 快手  可灵 AI 试衣功能上线

  • 智谱 Agent OpenDay

 

11 月 30 日
  • FishAudio  fish audio v1.5 即将上线商业版并开源权重

 

 

11 月 1 日

 

Google

Google Search 实时搜索功能上线 Gemini API 和 Google AI Studio 

这一升级使 Gemini 模型能够获取最新的搜索数据,显著提升响应的时效性与准确度。 

 

只是个大模型可调用的工具而已,并不是什么全新的搜索引擎。 

图片

https://developers.googleblog.com/en/gemini-api-and-ai-studio-now-offer-grounding-with-google-search 

 

 

OpenAI

ChatGPT Search 实时搜索功能发布,预计数月内将向所有免费用户开放 

该功能集成了必应搜索引擎,允许模型实时获取互联网信息,引用并提供信息来源链接,提供更准确的回答。 

实测体验中规中矩,没有明显亮点和优势。但同一天发布,刚一下 Google 可能会很开心吧 (o|o)  

 

有朋友试了试,信息时效性不强,猜测是自己的爬虫 

图片

https://openai.com/index/introducing-chatgpt-search 

 

 

Anthropic

Claude 推出桌面客户端 

已经支持 Mac 和 Windows 操作系统。 

此举被业内解读为 Anthropic 为后续深度整合操作系统功能铺路。 

 

目前功能与网页版一致,预计月底就会与网页版产生差异化,具体可以查看 11 月 25 号的 MCP 功能 

图片

http://claude.ai/download 

 

 

Suno

Personas 新功能上线 

能够捕捉并保存歌曲的关键元素,比如人声、旋律、情感、风格等等,并保存为独立的创意资产。 

后续创作中,可以选中自己的模板,或者其他人公开的模板,快速延续或「复制」已有的音乐风格,并保持一致性。 


V4 发布前的小甜点 

图片

https://suno.com/blog/personas 

 

 

Runway

Gen-3 Alpha Turbo 支持高级摄影机控制功能 

在使用文本提示、图像或视频生成新视频时,能够精准控制视频中的镜头移动,实现水平移动、绕拍主体、位置探索、速度变化等效果。 

 

可灵和 luma 都有镜头控制,但是做不到这么精细 

图片

https://help.runwayml.com/hc/en-us/articles/34926468947347-Creating-with-Camera-Control-on-Gen-3-Alpha-Turbo 

 

 

FishAudio

Fish Agent 端到端语音处理模型开源 

集成了自动语音识别 (ASR) 和文本到语音 (TTS) 技术,无需传统的语义编码器/解码器,即可实现语音到语音的直接转换。 

模型经过 700,000 小时的多语言音频内容训练,支持包括英语、中文在内的多种语言,能够精准捕捉和生成环境音频信息。 

 

文本方面由 Qwen-2.5-3B 处理 

图片

https://huggingface.co/fishaudio/fish-agent-v0.1-3b 

https://github.com/fishaudio/fish-speech 

 

 

Decart AI X Etched

Oasis 是世界上首个实时生成的 AI 游戏 

游戏提供了多种地图供玩家选择,随后的 3 分钟,玩家在游戏中体验到的每一帧都来自扩散模型的实时预测。 

游戏画面持续以 20 帧每秒的速度实时渲染,这意味着游戏世界是动态变化的,玩家的每一次操作都能立即影响下一帧的表现。 

 

那这个游戏还能走回头路吗? 

图片

https://oasis.decart.ai 

 

 

Omnivore X ElevenLabs

阅读产品 Omnivore 被 ElevenLabs 收购 

Omnivore 是一款开源的「稍后阅读 (read-it-later)」应用,并提供 AI 朗读功能。ElevenLabs 也有同类型软件 ElevenReader。 

此次收购之后,双方将共同开发 ElevenReader,增强技术储备和使用体验。 

 

Omnivore 在公告中告知,将在 11 月 30 日关闭服务并删除用户数据。 

图片

https://elevenlabs.io/blog/omnivore-joins-elevenlabs 

 

 

上海人工智能实验室

LLaMA-o1 项目开源 

复刻了 OpenAI o1 推理大模型,使用了 Self-Play 强化学习、PPO 多项先进技术。 

发布后引起了开源社区的关注。 

 

拉开这个月国内类 o1 模型发布的序幕 

图片

https://github.com/SimpleBerry/LLaMA-O1 

 

 

知乎直答

专业搜索功能上线 

提供 AI 搜索与正版论文库一站式服务。 

 

实测评价:直答终于发挥了它本该有的功能。 

图片

https://zhida.zhihu.com 

 

 

智谱

Z 基金 (智谱生态基金) 近期完成首关 

Z 基金正式成立于 2024 年,主要覆盖大模型赛道,侧重早期,管理规模 15 亿元人民币。 

图片

https://www.zhipuai.cn/ 

 

 

 

11 月 2 日

 

Anthropic

Claude Visual PDFs 功能上线 

可以识别上传 PDF 文件 (不超过 100 页) 中的图片和图表。 

 

这个功能是 API 层面的,可以直接将 PDF 传给模型,大大简化了 PDF 使用 AI 分析的实现过程。 

本质应该是是用了 Claude 的图像识别模型能力来分析 PDF,而不是简单的 OCR 后再把文本传给大模型。 

图片

https://docs.anthropic.com/en/docs/build-with-claude/pdf-support 

 

 

 

11 月 3 日

 

ProgramZmh

15 岁独立开发者 ProgramZmh,开源项目 ChatNio 被数百万收购 

从 0 开始到拿到七位数的第一桶金,他仅用了不到两年的时间。 

虽然目前只是一名高中生,但是 Zmh 的项目经历已经非常丰富,而且精通全栈开发。 

 

可以去看看小孩哥的即刻帖,青春又自信,非常美好~ 

https://web.okjike.com/originalPost/672733dadd10af52275889bc 

图片

https://zmh.me 

 

 

 

11 月 4 日

 

xAI

xAI API 正式公测 

目前只有一个 grok-beta 语言模型,支持 128k token 上下文,支持 Function Call,兼容 OpenAI 和 Anthropic SDK。 

 

实测就一般。 

🐏 2024 年年底之前,每月可以领取 25 美元的免费积分。 

图片

https://docs.x.ai/api 

 

 

Anthropic

Claude 3.5 Haiku 模型上线 

性能超越 Claude 之前所有模型,官方称其是「迄今为止最快、最智能、最具成本效益的模型」。 

BUT! 输入和输出 token 价格都涨了 4 倍,这好像就有点不香了 😅 

 

据观察,没啥人用。还是选择了 sonnet-3.5 

图片

https://www.anthropic.com/claude/haiku 

 

 

NVIDIA

AI Blueprint 框架发布 

支持长视频分析,能够快速总结关键事件和重要时刻,可以帮助企业打造视觉 AI Agent 和 AI 应用。 

这使得视频分析和长视频内容处理的效率,实现了革命性提升 📈 

 

图片

https://build.nvidia.com/nvidia/video-search-and-summarization 

 

 

 

11 月 5 日

 

腾讯混元

Hunyuan-Large 开源 

总参数量 389B,激活参数量 52B,上下文长度 256K,官方称在绝大多数指标上领先于 LLama3.1-405B 以及 DeepSeek 2.5。 

Hunyuan3D-1 开源 

支持文字和图像双模态生成 3D 内容,仅需 10 秒即可生成高质量 3D 资产 (轻量版)。 

 

这是混元首次开源,精神可嘉。不过实测感觉确实一般 😏 

图片

https://github.com/Tencent/Tencent-Hunyuan-Large 

https://github.com/tencent/Hunyuan3D-1 

 

 

昆仑万维

天工 AI 高级搜索功能正式上线 

新版本能更好地解答复杂问题,具有更完备的金融财经和学术数据库。 

新上线的 PDF 文档阅读分析功能,RAG 和 搜索能力也都很强。 

 

天工近期更新的产品功能,包括彩页和宝典,都非常不错 👍 

图片

https://www.tiangong.cn 

 

 

Jina AI

3 个小型语言模型 simple-qwen-0.5、topic-qwen-0.5、summary-qwen-0.5 已经开源 

解决 RAG 系统里文档分块的难题,找到长文档的最佳分割断点。 

 

问了,目前没有商业化的打算 🙅‍♂️ 

用大模型来处理文档切片,提升不是非常多,但是在没有商业化 API 的情况下,还需要本地化部署,是否值得呢。 

图片

 

 

 

11 月 6 日

 

Recraft

Graphic Design Generator 功能上线 

简单设置边框和文本布局,就能基于 AI 功能生成精美的海报。 

 

这个功能没出圈,但是他们的 Hard-Flash 风格出圈了,可以生成具有复古胶片感的照片。 

 

前段时间,在 AI 文生图竞技场大杀四方的神秘模型 Red_Panda,就是 Recaft 的新模型 Recaft v3。 

这家 2022 年新成立的英国创业公司,来势汹汹。 

图片

https://www.recraft.ai 

 

 

InstantX

Regional-Prompting-FLUX 技术开源 

可以精确控制 FLUX 生成图片时每个区域的内容,而且支持和 Controlnet 和 Lora 一起使用。 

兼容性强,操作简单直观,大幅提升了 AI 绘画的精确度。 

 

图片

https://github.com/instantX-research/Regional-Prompting-FLUX 

 

 

 

11 月 7 日

 

OpenAI

购入 chat.com 域名,访问可指向 ChatGPT 主页 

chat.com 注册于 1996 年,是互联网早期域名之一。2023 年,HubSpot 联合创始人兼 CTO Dharmesh Shah 以 1550 万美元将其买下。 

坊间估计 Sam Altman 这次购买域名花费了 1500 - 2000 万美金 💵 

 

域名生意做了几十年,经久不衰 

图片

chat.com 

 

 

Black Forest Labs

FLUX1.1 [pro] 模型升级,包含 Ultra 模式和 Raw 模式上线 

Ultra 模式支持高达 4MP 的分辨率,是标准 FLUX1.1 [pro] 的 4 倍,而且生成时间仍然保持在每样本 10 秒。 

Raw 模式能够捕捉到更自然、更少合成感的摄影风格,在人物主题的多样性和自然摄影的真实性方面有显著提升。 

 

Ultra 可以一次生成 4M 的图片,这种感受是革命性的 

因为你会看到 AI 生成的照片有丰富的细节,不再是一个 1M 的糊糊的小图了。 

图片

https://blackforestlabs.ai/flux-1-1-ultra 

 

 

Krea AI

Lora 训练功能开启邀测 

用户在网站上传多张图片,即可训练出个性化的角色、风格、产品模型。操作简单。 

 

估计是用的 Fal 的快速训练 lora API(不负责任的猜测) 

图片

https://krea-ai.com/krea-ai-introduces-lora-support 

 

 

Microsoft

Magentic-One 通用多智能体系统开源 

基于 AutoGen 框架构建,由主 Agent Orchestrator 和 4 个各司其职的子 Agent 组成。 

这些 Agent 协同工作,就像一个高效的团队,共同完成复杂的任务。 

 

图片

https://aka.ms/magentic-one 

 

 

字节跳动 X 清华大学

X-Portrait 2 人像动画技术发布 

上传一张静态人像图 & 一段有表情变化的表演视频,就能一键将后者的表情迁移到前者的人像上面。 

也就是,可以让一张人像完成各种给定视频里的面部动作,而且头部的运动、微小的表情、强烈的情绪等都能被更好地传达! 

 

官方说比 Runway Act-One 要好👀 

图片

https://byteaigc.github.io/X-Portrait2 

 

 

 

11 月 8 日

 

智谱

CogVideoX v1.5 视频模型开源 

包含 CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V 两个版本。 

CogVideoX v1.5 包含 5/10 秒、768P、16 帧的视频生成能力,I2V 模型支持任意尺寸比例,大幅提升图生视频质量及复杂语义理解。 

也将同步上线到清影,并与新推出的 CogSound 音效模型结合。 

 

智谱又又又发新模型,但是啥时候可以在官方 API 提供呢 

图片

https://github.com/thudm/cogvideo 

https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT 

 

 

字节跳动

即梦 AI S2.0 全新视频模型正式开放使用 

在 即梦 AI 移动端 App 或官网都可以体验。 

 

图片

https://jimeng.jianying.com 

 

 

 

11 月 9 日

 

Text Behind Image

在 𝕏 (Twitter) 爆火的一款图片编辑工具 

可以在图片角色与背景之间巧妙添加文字,瞬间生成高大上的海报。 

 

开发者年仅 16 岁,用 Cursor 和 V0 仅用了三个小时就搓出了这个工具 👀 

图片

https://text-behind-image.com 

 

 

OpenAI X Lilian Weng

OpenAI 研究副总裁 (安全) Lilian Weng 发帖正式宣布离职 

不过,她没有公布接下来的去向。 

此前,她曾出现在 B 站「bilibili 超级科学晚」现场,进行了一场关于「人工智能安全」的主题演讲。当时,就有朋友猜测她将离职。 

 

翁茘 (Lilian Weng) 和她的博客 Lil'Log 在 AI 圈非常知名。 

2023 年她更是一篇长文直接把 Agent 带入公众视野 ↓↓↓ 

https://lilianweng.github.io/posts/2023-06-23-agent 


https://www.bilibili.com/video/BV19dSHYUEAo 

 

 

 

11 月 10 日

 

The Information

The Information 发文指出 Scaling Law 可能失效了,模型预训练「撞墙」了。 

随后,Ilya Suskever、Sam Altman、Yann Lecun、Dario Amodei 纷纷发言表达自己支持或反对的观点。大概梳理下出场人物和各自观点: 

  • 开始,The Information 报道,OpenAI 的训练和模型进化速度变缓,导致 GPT-5 难产已成定局

  • 然后,又有某个人在 𝕏 上说,似乎另一家在训练的时候遇到了一个未曾遇到的 Huge Wall

  • 随后,Bloomberg 把范围扩大到 OpenAI、Anthropic、Google,发现大家都在推迟新模型发布

  • 但是,AI 社区内大家信心还是很强, 特别是对推理的 Scaling Law

  • 然后,Ilya Suskever 出来补刀:I told you so

  • 果然,Yann Lecun 也抓紧来凑热闹:I told you so

  • 还有,Anthropic CEO Dario Amodei 出来押注 Scaling Law 还继续存在

  • Sam Altman 则选择直接嘴硬:there is no wall

 

Scaling Law 本质是一个对未来的美好期望,不是一个 Law 

图片

https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows 

 

 

 

11 月 11 日

 

NVIDIA

Edify 3D 生成模型发布 

可以在 2 分钟内生成高质量 3D 资产,带有有序 UV 贴图、4K 纹理和 PBR 材质。 

 

图片

https://build.nvidia.com/shutterstock/edify-3d 

 

 

Google

AlphaFold3 模型开源 

来自生物医药、生命科学等各个领域的科学家们都可以免费下载模型代码,自行运行模型开展工作。 

此举直接获得了 Nature 亲自撰文推荐。 

 

对!就是今年拿了诺贝尔化学奖奖的那个模型~ 


https://github.com/google-deepmind/alphafold3 

 

 

字节跳动

SeedEdit 图像编辑模型上线 

支持自然语言编辑图像。即梦 AI 网页端和豆包网页端都可以使用。 

与 Midjourney 上个月新增的纹理重绘和局部重绘功能相比,SeedEdit 胜在操作简便,艺术效果和细节刻画还是 Midjourney 更胜一筹。 

 

据我观察,这个不是局部重绘,而是保持一致性的重新生成图片,一个人脸,多修改几次,就变成另外一个人脸了。 

图片

https://team.doubao.com/en/special/seededit 

 

 

月之暗面

月之暗面创始人杨植麟、联合创始人兼 CTO 张宇韬,近日被循环智能时期投资人在香港提起仲裁,相关电子仲裁申请书也已递交 HKIAC (香港国际仲裁中心)。 

 

 

 

11 月 12 日

 

BRIA AI

RMBG-2.0 背景去除模型开源 

使用了 BiRefNet 架构,准确性和精度都有保障。 

 

简单图例的实测效果很好,直追抠图界顶流 remove.bg 

一些疑难的例子还是处理得不好,离人工抠图还是有一丁点距离。 

图片

https://huggingface.co/briaai/RMBG-2.0 

https://blog.bria.ai/introducing-the-rmbg-v2.0-model-the-next-generation-in-background-removal-from-images 

 

 

阿里巴巴 ● 阿里国际

Accio 全球首个 B2B AI 原生搜索引擎 

通过 AI 重塑的采购能力,为海外的最终采购方提供 AI 采购顾问服务。 

 

图片

https://www.accio.com 

 

 

百度世界 2024 大会

百度在大会上公布的关键技术和出圈工具,主要是以下几个。 

  • 检索增强的文生图技术 (iRAG):解决大模型在图片生成上的幻觉问题。

  • 小度 AI 眼镜:据称是全球首款搭载中文大模型的原生 AI 眼镜,具备第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘等功能。

  • 秒哒:无代码工具,不用写代码就能实现任意想法。

  • 自由画布:在一块白板上,通过简单操作,即可实现输入、编辑、创作、分享等功能。

 

百度发布了 自由画布 之后,flowith 创始人在小红书发帖称,这款产品与 flowith 惊人相似。并且,百度曾经借举办海外 AI 创业大赛的名义,邀请提交 bp,沟通会议时问的也是技术实现细节。 

目前,帖子已经无法访问。 

 

不过,从产品交互上来说,百度画布与 Figma Jambot 的相似度也很高啊 👀 

图片

https://cloud.baidu.com/product/AMIS/miaoda.html 

https://wenku.baidu.com/pcactivity/freeBoard 

 

 

秘塔 AI 搜索

上线「专题」功能 

资料上传知识库后即可定制数据源,进行针对性地互动。 

RAG 能力和搜索能力都非常棒,产品使用体验流畅! 

 

用户流程非常清晰,传文件+文件内搜索,有 glean 的感觉了。 

图片

https://metaso.cn 

 

 

智谱

智谱清流上线 

专为企业 AI 应用落地打造的 AI 智能体开发平台。 

清流提供 Agents、Workflow、知识管理、批量效果调优等能力,支持 API、SDK、URL 三种集成方式。 

 

图片

https://bigmodel.cn/agent 

 

 

会读 ReadFlow X 知我 AI

会读 ReadFlow 是一款 AI 阅读工具,核心功能是通过微信对话发送文章链接,直接生成摘要。后续又增加了小报、归档、标签等新功能。 

创始人发文宣布将会读用户迁移至同类型产品知我 AI。 

知我 AI 随后发文,表示会坚定地接好这一棒。 

 

非常体面的收场。 

图片

https://knowme.xiaoduoai.com 

 

 

 

11 月 13 日

 

OpenAI

Greg Brockman 宣布结束假期,以总裁身份重返 OpenAI 

他今年 8 月曾发推表示要休假到 2024 年底。本来以为是休假后离职的常规套路,意料之外情理之中的,他选择了回归 OpenAI。 

 

图片

 

 

Google X University of Washington

Fashion-VDM 技术发布 

可以通过视频扩散模型 (VDM) 创建逼真的虚拟试衣视频 

只需要提供一件衣服图片和一段人物视频,就能生成一段这个人穿着这件衣服的视频,而且效果超级逼真! 

 

图片

https://johannakarras.github.io/Fashion-VDM 

 

 

DeepL

DeepL Voice 语音翻译解决方案 

适用于多语言线上会议与面对面对话的实时翻译,目前支持 33 种语言。首批发布了两款产品: 

  • Voice for Meetings 能让线上会议时各方使用母语发言,其他人可以收到实时翻译的字幕。

  • Voice for Conversations 能在面对面交流时,在移动设备上呈现实时字幕翻译。

 

图片

https://www.deepl.com/en/blog/deepl-voice 

 

 

StackBlitz X Anthropic

AI 编程工具 bolt.new 上线 4 周取得了非常耀眼的成绩 

ARR 收入从零到 400 万美元,每周使用人数超过 10 万,Claude 调用量每天翻倍增长。 

被 Anthropic 官方选为优秀案例进行展示。 

 

这个产品基于他们自己开发的 https://webcontainers.io,也算是厚积薄发了 

图片

https://www.anthropic.com/customers/stackblitz 

 

 

Common Corpus

全球最大规模的多语言开放预训练数据集开源 

包含 2,003,039,184,047 个 tokens,全部来自合法许可的公开内容。 

数据集涵盖科学、法律、新闻、文化、代码等多个领域,这种多样性和深度无疑为研究者提供了丰富的资源。 

 

图片

https://huggingface.co/datasets/PleIAs/common_corpus 

https://huggingface.co/blog/Pclanglais/two-trillion-tokens-open 

 

 

阿里巴巴 ● 通义

通义千问代码模型全系列正式开源 

共 6 款 Qwen2.5-Coder 模型,其中 Qwen2.5-Coder-32B-Instruct 代码能力追平 GPT-4o。 

 

月底回头看,用的人不多。说明还是不够好吗 👀 

https://github.com/QwenLM/Qwen2.5-Coder 

https://huggingface.co/collections/Qwen/qwen25-coder-66eaa22e6f99801bf65b0c2f 

 

 

生数科技

Vidu-1.5 发布 

这是全球首个支持多主体一致性的多模态大模型,支持人物、物体和环境等主体的一致性。 

 

Vidu 从最早主打快速生成视频,到今天的主体一致性,终于业界领先了 

图片

https://www.vidu.studio 

 

 

阿里巴巴 X 字节跳动

阿里巴巴通义千问已递交劳动争议仲裁申请书,将起诉前员工周畅违反竞业协议 

周畅是阿里通义千问大模型的技术负责人,2024 年 7 月被爆离职创业,方向或为 AI 应用。期间有诸多投资机构接触计划投资,但最后选择加入字节跳动,或负责 AI 硬件。(雷锋网) 

 

 

 

11 月 14 日

 

OpenAI

ChatGPT 桌面客户端 Windows 版面向所有用户开放 

快捷键调用 ChatGPT,Mac 版是 Option + Space,Windows 版是 Alt + Space。 

 

图片

https://openai.com/chatgpt/download 

 

 

Google

Gemini-Exp-1114 模型登上 Chatbot Arena 榜首 

好景不长,ChatGPT-4o-lastest (2024-11-20) 重回巅峰。 

一天之后,Gemini-Exp-1121 杀出来,又抢走了第一名。 

基本是你追我赶的态势。 

 

实测一般 

图片

 

 

腾讯 ● 元宝

腾讯元宝 2.0 版本上新 

除了模型和交互更新外,最亮眼的有两点: 

  • 一是整合了公众号/视频号/QQ 音乐等信息资源;

  • 二是打通了元宝-文档-电脑管家-输入法之间的协作工作流。

腾讯元宝 App 同步上线各大应用搜索商店。 

 

图片

https://yuanbao.tencent.com/chat 

 

 

科大讯飞

星火多模态交互大模型正式上线 

新增多模态、超拟人、个性化能力,实现「语音-视觉-数字人交互」三合一。 

 

追上了智谱「视频通话」功能。 

而且,通话中的数字人功能很新颖,这点值得表扬 👍 

图片

https://xinghuo.xfyun.cn 

 

 

京东 X 浙江大学

JoyVASA 音频驱动生成面部视频项目开源 

可以通过单张图片和音频片段,生成人类或动物面部的对嘴同步视频。 

而且效果能做到面部表情和头部动态自然。 

 

图片

https://jdh-algo.github.io/JoyVASA 

 

 

 

11 月 15 日

 

字节跳动 ● 即梦 AI

P2.0 Pro 和 S2.0 Pro 全量开放使用 

  • P2.0 Pro 具有极高提示词遵循能力,对复杂的提示词仍然可以保持严格的遵循。

  • S2.0 Pro 具有首帧一致性,可以保持与用户输入图的一致性、色彩等细节还原。

 

图片

https://jimeng.jianying.com 

 

 

腾讯

ima.copilot 智能工作台 Windows 版本上线 

与 Mac 版本胜利会师 ✌ 

目前核心功能时文档解读和智能写作,而且两个功能之间已经打通,可以形成有效的工作流。 

用来阅读和搜索公众号文章也非常不错,体验很流畅。 

 

经过测试,ima.copilot 的搜索和 RAG 能力都还有待加强 (跟秘塔相比)。 

最大的优势是守着公众号这座金山⛰ 期待后续更新~ 

图片

https://ima.qq.com 

 

 

阿里巴巴 ● 通义

通义代码模式正式上线 

可以通过独立窗口预览前端实现效果,而且内置了很多示例。 

具体的实现效果,基本与 DeepSeek 持平,距离 Claude Artifacts 还有差距 

 

以下是可以体验 Artifacts 功能的网站/开源项目清单。🔮表示需要魔法。 

 

  • Claudehttps://claude.ai 🔮

  • 302https://302.ai (注意!已经实现所有模型都能使用 Artifacts

  • Monicahttps://monica.im 🔮

  • V0https://v0.dev 🔮

  • Le Chathttps://chat.mistral.ai/chat

  • DeepSeekhttps://chat.deepseek.com

  • 通义代码模式https://tongyi.aliyun.com

 

  • Fragments by E2B,界面和体验无限接近于 Claude,开源:https://fragments.e2b.dev 🔮

  • Llama Coder,通过提示词创建应用并快速发布https://llamacoder.together.ai 🔮

  • Screenshot to Code,将截屏/设计转换为 HTML / Tailwind / React / Vue 代码,开源:https://screenshottocode.com 🔮

  • StreamlineAI,将 Artifacts 功能拓展到任意 LLM:https://streamlineai.awesomeprompt.net

  • 简化浏览器插件,将 Artifacts 功能拓展到任意 网页:https://jianhua.art

 

  • Claude Artifacts Showcase,Artifacts 玩法收集 (支持提交自己的项目):https://claudeartifacts.com

  • WebVideoCreator,将 Artifacts 生成的网页动画渲染为视频,开源:https://github.com/Vinlic/WebVideoCreator

图片

https://tongyi.aliyun.com/qianwen 

 

 

 

11 月 16 日

 

Codeium ● Windsurf

Windsurf AI 编程 IDE 发布 

提出了 Agent IDE 这种新的开发范式,即根据项目需求自动设计不同职能的 Agent,尽力释放人类的机械工作。 

Windsurf Cascade 功能对应 Cursor Composer,并在体验上有很大提升,包括深入理解现有代码库,上下文检索、对编辑器内操作的实时感知等。 

 

采访公司的几个程序员,反馈不如 Cursor,主要是 tab 自动补全有差距,仅代表个人意见 (by Jomy) 

本月各种编程工具陆续推出,让人应接不暇,而且在开发者群体中的口碑都很不错。 

AI Coding 终于摆脱了造神叙事,真正进入到了落地爆发阶段。想系统了解 AI 辅助编程工具和使用方式,推荐 @idoubi 这篇长文 ↓↓↓ 

 

关于 AI Coding 赛道的分析,有篇文章「Code Smarter, Not Harder」写得非常好,划分了 L1 - L5 发展阶段 (当前处于 L2),并且分析了当前遇到的挑战,给出了可能的应对方案 ↓↓↓ 

图片

https://codeium.com/windsurf 

 

 

 

11 月 17 日

 

xAI ● Grok-3 证明了黎曼猜想?

研究员 Hieu Pham 在 𝕏 (Twitter) 发帖称,正在训练中的 Grok-3 模型证明了黎曼猜想 (Riemann's hypothesis),如果验证属实将停止模型训练,以此保证人类安全。 

现在访问这条帖子,你可以看到:Hieu clarified it’s a joke。  

😐😐😐 

 

图片

https://x.com/hyhieu226/status/1858028679747829769 

 

 

月之暗面

数学推理模型 k0-math 发布 

数学能力对标 OpenAI o1-mini 和 o1-preview。Kimi 网页端即可体验,实测效果还可以 

 

发布之后,最出圈的竟然媒体文章的标题,「杨植麟回应一切」「并没有回应一切」「回应不了一切」🤣 

图片

https://kimi.moonshot.cn 

 

 

 

11 月 18 日

 

Mistral AI

Pixtral Large 多模态模型开源 

参数 124B,支持 128K 上下文,能理解文本、图表、图像等。 

在线聊天应用 Le Chat 更新 

增加了网页搜索、Canvas、图像生成、图像理解、PDF 理解、AI Agent 等功能。 

 

实测多模态模型还不错,Le Chat 很好用! 

但是新的 large-2 就拉垮了。 

图片

https://chat.mistral.ai/chat 

https://mistral.ai/news/pixtral-large 

 

 

Rokid X 暴龙眼镜

Rokid Glasses 智能眼镜发布 

可以打电话、听音乐、拍照。集成的通义千问大模型,还支持 AI 问答搜索、识物、拍照答题、多语种翻译等功能。 

售价 2499 元,将于 2025 年的三四月份正式发售。 

 

自从 Meta 和雷朋合作的 AI 眼镜 Ray-Ban 卖爆之后,各厂都开始发布和准备发布自家的 AI 智能眼镜。 

本月看到相关消息的就有百度、阿里、小米、影目、三星、亚马逊、大朋、苹果、致敬未知、KTC…  

继「百模大战」之后,「百镜大战」又将拉开序幕? 

图片

 

 

 

11 月 19 日

 

Perplexity

推出 AI 购物功能,面向 Pro 订阅者开放 

一键完成从搜索到购买的全链路,无需离开 AI 搜索引擎页面就可以下单购买产品。 

 

进军电商业务,就能撑起 pplx 的估值么👀 

图片

https://www.perplexity.ai 

 

 

Fireworks AI

f1 模型发布让多个开源模型协作 

可以通过协作模式解决更复杂问题,比如数学推导、编程、逻辑等任务。 

 

图片

https://fireworks.ai/blog/fireworks-compound-ai-system-f1 

 

 

Ai2 X University of Washington X Meta

OpenScholar 学术搜索模型上线 

通过 RAG 技术外接一个 4500 万篇论文的数据库,帮助科研人员高效完成文献搜索和文献综述。 

数据、代码、模型权重已经全部开源。 

 

Ai2 (艾伦人工智能研究所,Allen Institute for AI) 这个月很猛啊! 

连续发布开源模型,而且是全方位彻底的开源,初心仍在。 

 

大模型开源,比如 LLaMa,大多数情况下只开源权重。这也是前段时间 Meta 被国际开源组织批评滥用「开源」这个词的原因。 

其实,对于开源来说,数据、代码、评估标准等都更加重要。@赛博禅心 有一篇科普文,可以帮助你了解各个部分的意义↓↓↓ 

图片

https://openscholar.allen.ai 

https://allenai.org/blog/openscholar 

 

 

 

11 月 20 日

 

Suno

Suno V4 模型发布,生成音乐质量有了巨大进步 

模型效果已经非常惊艳,几乎达到了取代真人创作的水平。 

  • 还有一个亮点功能是 Remaster,用户可以升级重制原有 AI 音乐,优化音质和唱词。

  • 另一个亮点功能是 ReMi,用户可以通过 ReMi 协助歌词创作,生成更有创意并且更符合音乐性的歌词内容。

 

根据使用反馈,遥遥领先 Udio 

图片

https://suno.com 

 

 

DeepSeek

推理模型 DeepSeek-R1-Lite 预览版正式上线 

在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,还可以展现了 。已经上线官网,点击「深度思考」按钮即可使用。 

 

测有点过度思考 

图片

https://chat.deepseek.com 

 

 

昆仑万维

天工 Skyo 实时语音对话助手发布,预计将于 12 月份上线天工 App。 

 

Menlo Ventures

2024 年企业 AI 使用情况调查报告发布 

Menlo 调研了 600 名企业的 IT 负责人,从企业内部的模型选择、使用场景、考虑因素、部门发展、发展预测等角度进行了数据分析。 

 

可以看 @橘子汽水铺 这篇中文解读 

简而言之,Anthropic 很猛,RAG 很猛,AI Coding 很猛;AI 人才短缺。 

图片

https://menlovc.com/2024-the-state-of-generative-ai-in-the-enterprise 

 

 

 

11 月 21 日

 

Black Forest Labs

FLUX.1 Tools 系列工具开源,ComfyUI 已经支持 

  • FLUX.1 Fill:局部重绘和扩图模型,官方称其为迄今为止最先进的修复模型

  • FLUX.1 Depth & Canny:官方 ControlNet 模型,进行结构调节

  • FLUX.1 Redux:通过提示转换图像风格,进行图像变化和重新设计

这是自 Flux.1 [dev] 模型开源后的又一个开源项目,当得起一声赛博菩萨~ 

 

SD 的生态都快被偷完了 

图片

https://blackforestlabs.ai/flux-1-tools 

 

 

Ai2

Tülü 3 系列大模型开源,目前包含 8B 和 70B 两个版本 

未来计划推出 405B 版本。 

模型在性能上超越了 Llama 3.1 Instruct 版本,而且是完全开源,提供了详细的后训练技术报告、公开数据、评估代码和训练算法。 

 

图片

https://allenai.org/blog/tulu-3 

 

 

搜狗输入法 x 腾讯混元

搜狗输入法基于腾讯混元大模型,进行了智慧升级 

  • 边输边查功能,输入框即搜索框,点击放大镜即可秒出答案。

  • 等号划词功能,可以查看天气、股价、假期等实时信息。

 

交互革命的风,终于吹向了国内的输入法产品 🌀 

@腾讯科技 有篇主题分析长文,可以看看 ↓↓↓ 

图片

https://shurufa.sogou.com 

 

 

阿里巴巴 (蚂蚁-支付宝)

EchoMimicV2 数字人技术项目开源 

利用参考图像、音频片段和一系列手部姿势来生成高质量的动画视频 

也就说,仅需输入一张参考图像、一段音频及一段手势序列,就可以生成高质量的人物动画视频了!同时还能确保半身数字人与音频内容之间的协调。 

 

官方 Demo 看起来效果非常好,感觉直接逼近 HenGen 

图片

https://github.com/antgroup/echomimic_v2 

 

 

 

11 月 22 日

 

Amazon x Anthropic

Amazon 宣布向 Anthropic 再投资 40 亿美元 

这笔投资以可转换债券的形式分阶段进行,首笔付款为 13 亿美元。 

这是 Amazon 近 30 年最大的一笔对外投资,也是两年来对 Anthropic 的第三次投资,前两次分别为 2023 年 9 月的 12.5 亿美元、2024 年 3 月的 27.5 亿美元。 

 

图片

https://www.aboutamazon.com/news/aws/amazon-invests-additional-4-billion-anthropic-ai 

 

 

阶跃星辰

阶跃星辰多模态理解大模型 Step-1V 

登上 Chatbot Arena Vison 榜单,位列视觉领域中国大模型第一名 (总榜单第十三名)。 

阶跃星辰自研的万亿参数语言大模型 Step-2 

登上 LiveBench 榜单,是唯一进入榜单前十名的中国语言大模型,位列全球第五。 

 


https://www.stepfun.com 

 

 

 

11 月 23 日

 

Lightricks

LTX-Video 实时视频生成模型开源 

以 768x512 分辨率生成 24 FPS 视频,生成速度比观看速度要快,是唯一一个能够实时生成高质量视频的基于 2B 参数 DiT 的视频生成模型 (H100)。 

LTX-Video 开源了代码库和模型权重。 

 

实测效果不太行,但是胜在成本很低。 

图片

https://github.com/Lightricks/LTX-Video 

 

 

Runway

Expand Video 功能发布,可以改变视频画幅比例 

传统裁剪方式往往会丢失重要细节。而 Expand Video 不是剪掉细节,而是在视频外围边缘扩展内容,确保信息不丢失。 

Expand Video 在大多数情况下无需提示词,但添加文本提示词的控制效果和细节呈现会更好。 

 

图片

https://help.runwayml.com/hc/en-us/articles/34926355398675-Creating-with-Expand-Video-on-Gen-3-Alpha-Turbo 

 

11 月 24 日

 

Cursor

0.43 新版本推出了 Composer 界面、Agent 功能和 Bug 查找器等功能。 

此次更新,使得 Cursor 更加直观易用,并极大简化了开发流程。 

 

图片

https://changelog.cursor.com 

 

 

 

11 月 25 日

 

Anthropic

发布开源 MCP 协议,是 Anthropic 版本的 Function Calling,只能用在客户端,需要开发能力。 

MCP 的亮点是定义了一套标准且相对完善的协议,对于大模型和应用的生态协同有很大的指导意义。本质上是对 LLM 和 API 调用层进行的优化 

 

Chat API 的格式,大家基本都跟着 OpenAI 走了。Claude 这把想让 Agent API 的格式,跟着他们走。 

图片

https://www.anthropic.com/news/model-context-protocol 

https://m.okjike.com/originalPosts/67469876ba0429bf87824471 

 

 

AndrewNG (吴恩达)

aisuite 大模型套件开源,把 11 家 知名大模型平台集中到了一起,统一了接口,可以用相同的方式调用不同模型。 

切换模型时,只需要改动一个字符串,不用在不同的 API 之间摸不着头脑了。 

 

图片

https://github.com/andrewyng/aisuite 

 

 

阿里巴巴

Marco-o1 开放型问题推理模型开源,模型通过思维链 (CoT) 微调、蒙特卡罗树搜索 (MCTS)、反思机制和创新的推理策略提供支持。 

模型目标是解决这个问题:o1 模型能否有效地推广到缺乏明确标准且奖励难以量化的更广泛领域? 

 

图片

https://github.com/AIDC-AI/Marco-o1 

Hugging Face: https://huggingface.co/AIDC-AI/Marco-o1 

 

 

阿里巴巴 ● 蚂蚁技术研究院

MagicQuill 交互式 AI 图像编辑工具开源,用画笔涂抹加一句提示词,就能快速完成图像编辑, 

轻量便捷版 PS ❤ 疯狂收割 GitHub Star 

 

图片

https://github.com/magic-quill/magicquill 

https://magicquill.art/demo 

 

 

得到

Get 笔记移动端 App 正式上线发布 

这款 AI 笔记应用目前已经包含了网页端、移动端和小程序三种产品形态。 

 

图片

https://www.biji.com 

最近各种知识管理应用层出不穷,@samu 整理了一份分类清单,可以按需取用并关注这类产品后续的 AI 演进思路。 

 

RSS 订阅类产品 

  • Feedlyfeedly.com

  • InoReaderinnoreader.com

  • Follow: follow.is

  • TidyRead: tidyread.ai

传统搜索 

  • Googlegoogle.com

  • 百度baidu.com

  • axivarxiv.org

  • 天工tiangong.cn

  • 秘塔metaso.cn

  • ThinkAny: thinkany.so

  • Devv: devv.ai (daiwu.cn)

思维导图/思考白板 

  • XMindxmind.net

  • AIFlow:

  • FunBlocksapp.funblocks.net

文档创作 

  • Evernoteevernote.com

  • Notion: notion.so

  • 飞书feishu.cn

  • 语雀yuque.com

  • Flomoflomoapp.com

知识卡片 

  • fastposterfastposter.net

  • 吉光卡片 (Kiko Card)

  • 流光卡片fireflycard.shushiai.com

  • molypix: molypix.ai

 

 

 

11 月 26 日

 

OpenAI Sora

疑似 Sora 内测版本被泄露 

来源是参与早期测试的部分艺术家,他们作为 Red Team 和创意合作伙伴参加测试,却发现被 OpenAI 当成了价值证明的工具。 

 

不过!也有技术大佬从 HF 上的端口信息判断,这是 OpenAI 自导自演的一场营销事件。 

经历过「草莓」的我们,应该都懂 🤣 

图片

https://huggingface.co/spaces/PR-Puppets/PR-Puppet-Sora 

 

 

NVIDIA

Fugatto 音频模型 

输入可以是文本和音频,输出可以生成/转换为「音乐+人声+声音」的组合 

也就是说,用户只用文本就可以控制输出的音频。非常灵活且酷炫! 

 

思路非常之牛逼。 

图片

https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model 

 

 

Runway

Frames 图像生成模型发布 

显著提升了风格控制能力和视觉逼真度,生成作品能非常好地保持风格一致性。 

目前,正逐步在 Gen-3 Alpha 中开放 Frames 的访问权限。 

图片

https://runwayml.com/research/introducing-frames 

 

 

Luma

Dream Machine 创作平台大升级 

使用自然语言进行全流程创作,并把图像生成和视频生成完美融合到了同一个平台里,而且也是画布流形式的操作界面。 

所基于的 Luma Photon 生成模型,也被称为当今最富创造力、最智能、最快速图像 AI 模型。 

 

图片

https://lumalabs.ai/dream-machine 

 

 

特朗普称将任命人工智能部长

特朗普对外宣布,计划任命一位专门负责人工智能事务的「人工智能部长」,以加强美国在全球 AI 竞赛中的领导地位。 

该部门将整合 AI 政策、国家安全和产业发展三方面的工作。 

部长人选并未确定。据报道埃隆·马斯克不会担任该职位,但预计他将密切参与相关工作。详细报道 @创头条 

特朗普的胜选,对于 AI 乃至科技圈的发展,影响是非常大的。 

技术与主权、政治、宗教、经济缠绕在一起,共同决定着未来科技发展的走向。非常复杂。 

你可以通过这篇文章,基本了解美国内部精英人士的解读和判断 ↓↓↓ 

 

 

 

11 月 27 日

 

ElevenLabs

GenFM 功能上线 ElevenLabs Reader iOS 应用程序 

用户上传视频、文本、文档后可以生成一个多语音播客,目前支持 32 种语言。 

 

对标 Google NotebookLM。 

 

最近,国内外出现了很多 AI PodCast 产品。推荐几款比较有特色的,大家可以感受下开发者们的脑洞 ↓↓↓ 

  • Google NotebookLMhttps://notebooklm.google.com

  • Google Illuminate,AI 读书产品:https://illuminate.google.com

  • Meta NotebookLlama,开源版本效果一般:https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

 

  • PodLM,@idoubi 作品 → https://podlm.ai

  • 302 AI 播客生成器,大大大杂糅,各种常见的 AI 生成功能都有了,而且开源了:https://302.ai/tools/podcast

  • 可听,小程序里体验会让震撼加倍,AI 播客的个性化创作距离我们如此之近:http://keting.tech

  • MemenomeLM,Micrecraft 游戏视频生成 + NotebookLM +语音克隆,思路和 DAU 都非常狂野:https://www.memenome.gg

图片

https://elevenlabs.io/genfm 

 

 

昆仑万维 ● 天工

Skywork o1 (天工大模型 4.0 o1 版) 正式发布 

是国内第一款中文逻辑推理能力的 o1 模型。 

其中,Skywork o1 Open 是开源版本,Skywork o1 Lite 和 Skywork o1 Preview 分别对标 OpenAI o1-mini 和 o1-preview 版本。 

 

可在 天工 AI 网页端使用,目前处于内部邀测阶段。 

又又是一家国产 o1 

图片

https://www.tiangong.cn 

 

 

 

11 月 28 日

 

ComfyUI

桌面客户端开源,适用于 Windows (NVIDIA 显卡) 和 macOS (M 系列芯片) 

目前仍处于测试阶段,一起发布的还有一份新手用户操作指南,记得查看 ↓↓↓ 

 

图片

https://comfyorg.notion.site 

https://www.comfy.org/download 

 

 

阿里巴巴 ● 千问

QwQ 推理大模型开源 

QwQ-32 B-Preview 是实验性研究模型,专注于增强 AI 推理能力,在数学和编程方面表现出色。 

官方也说明,在某些领域还有改进空间,期待后续更新。 

 

QwQ (Qwen with Questions) 发音 /kwju:/,类似于单词 quill。 

图片

https://qwenlm.github.io/zh/blog/qwq-32b-preview 

 

 

月之暗面 X 清华大学

Mooncake 推理系统设计方案开源 

月之暗面和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量,共建以 KVCache 为中心的大模型推理架构。 

 

图片

https://github.com/kvcache-ai/Mooncake 

 

 

360

360 AI 搜索 更名为 纳米搜索 

官方称其优势是 360 自带的桌面/浏览器/搜索入口,还有周鸿祎自己的 IP 加持。  

 

图片

https://n.cn 

 

 

字节跳动 ● 扣子

支持一站式 AI 应用开发 

扣子平台现已支持 AI 应用开发,轻松构建具备完整业务逻辑和直观用户界面的 AI 应用。AI 应用可以发布为 API 服务、模板,或上架至扣子商店。 

其中,应用的业务逻辑由编排好的工作流实现,同时可通过变量、插件、知识库、数据库等方式灵活地与本地或线上数据进行交互。 

此外,扣子提供了丰富的页面组件和可视化的编排能力,让你无需写一行代码就可以快速搭建出用户界面。 

 

AI只靠 LUI 是不够的,还是要靠 GUI,个人意见 (by Jomy) 

图片

https://www.coze.cn/docs/guides/release_note 

 

 

 

11 月 29 日

 

智谱 Agent OpenDay

最出圈的功能就是 GLM-PC,可以像人一样操作电脑 

基于视觉多模态模型实现通用 Agent 技术探索。 

在 OpenDay 现场,AutoGLM 给在场数百位嘉宾发送了「AI 给人类发的第一个红包」,并且手机远程指挥电脑自动发送文件。 

 

图片

 

 

快手可灵

AI 试衣功能上线 

可灵 AI 平台上线 AI 试衣功能,支持用户上传任意一张服装图、一张模特图,一键生成自然贴合的模特试穿效果。 

 

官方API很早就有了,产品走在了API的后面,少见。 

图片

https://klingai.kuaishou.com 

 

 

 

11 月 30 日

 

FishAudio

fish audio v1.5 即将上线商业版,同步权重开源 

新增支持五个语言 (葡萄牙语、意大利语、荷兰语、波兰语、俄语),并大幅度提高日文性能表现。 

 

图片

https://huggingface.co/spaces/TTS-AGI/TTS-Arena 

 

 

2022 年 11 月 30 日,ChatGPT 正式发布 

两年过去了 

世界发生了翻天覆地的变化 

但更大的变化还在蕴育之中