藏师傅的 2024 总结 - 模型与产品部分

歸藏

2025-01-01 12:09发布于北京科技领域创作者

2024年结束了，本来想偷懒不写年终总结了，以前总是想也没什么意义，确实之前只有上班工作的时候一年望到头年底绩效写完基本就也没什么可总结的了。　

昨晚睡得不错，早上起来想说还是写写吧，今年还是做了挺多事情的，首先得感谢AI圈子的同僚们，基本每周都会有一些好玩的东西出来，另外就是感谢自己居然能持续输出这么长时间。　

我的AI之路就是从体验开始的，一点点好奇心驱动我从体验开始慢慢进行分享和构建。这部分就回顾一下24年体验的模型的发展和我推荐的产品吧，其他部分可能有也可能没有。　

产业&模型

图像和视频领域出乎意料的快速发展，感谢Open AI在Sora发布时最后的良知爆发，多写了点架构的事情。　

图像生成成能力爆发式的增强　

主要源于Sora让大家看到了DiT架构的潜力，也感谢Open AI最后一次在架构上写那么多。
图像质量大幅进化、真实度、细节和提示词理解都比纯扩散模型强了非常多。
提示词理解变强带来的控制方式的变化，工作流变得更加简单的同时对大语言模型的依赖性也变得更强。
文字书写能力让图像模型真的可以落地，海报、封面、梗图，每个人都有作图需求，只是之前更接近手工业的设计行业没办法低成本提供服务。

视频生成走在图像一年前的路上　

24年的视频生成发展路径和生成质量跟23年的图像很像，终于在单镜头上做到了80分水平
跟图片不一样的是，这次国产视频模型碾压式的打爆的海外模型，可灵、海螺、即梦、Pixverse这次轮到他们反思了
当我们觉得视频生成模型在这个规模下质量见顶的时候，谷歌的Veo2让我们看到了视频模型的能力还能再窜一窜
明年视频模型会发展到深水区，我们需要啃色彩、ID、场景等一致性，我们需要解决视频模型中的文字生成问题，需要利用Agents能力解决自动化编排和生成的问题。

大语言模型的困境和方向　

谁都没想到在一年前让很多人奉为圭臬的 Scaling laws 预训练可以这么快的看到顶，所以这个行业没有谁可以精准的预测发展过程。
更没想到的是代码能力的大幅提升让AI代码生成大规模落地了，这个互联网的基座能力被加速后，会给整个下游都带来指数级的变化。
Gemini的原生多模态生成能力带来的25年关于内容生产和分析的自动化的发展非常令人期待
结构化输出问题的解决能否让Agents真正落地到产品上呢？
大语言模型从封闭域走向开放域现在O1和O3又回到了封闭域，推理模型的问题是用户根本不知道什么时候该用，以及结果到底对不对，产品需要思考这个问题的解决方式。

产品

不同于模型的困顿和发展变慢，今年的AI产品才真正爆发，整个产业一起用钱和广告把用户认知和用户规模砸了出来。　

我最喜欢的AI产品层面创新　

Claude 的Projects功能和Artifact可以说是今年Chatbot类产品最重要的体验创新，成功的解决了Chatbot类产品在长内容输出、多媒体格式展示以及输出碎片化的问题，另外也帮助了LLM优质语料收集，天才般的想法
现在回过头看Midjoureny默认不隐藏所有生成内容这个产品决策的前瞻性和价值可太大了，生成内容默认公开和基于社区的内容信息流可以极大程度的促进创意相互激发和优质合成数据筛选，现在几乎已经成了视频生成和图像生成产品的标配。
很多人觉得我经常提到Notebooklm是觉得这个产品好，事实上我只是从他们用现有音频技术构建出来的多模态交互体验感兴趣，基于文本生成文本、音频、视频自动化编排，在消费内容的时候让用户可以介入沟通，低成本的完成了新的内容生产，用户即是内容消费者也是内容生产者。
元宝的文档深度阅读能力真是独一份的强，在论文理解和精读这个功能的打磨上以及到头了，包括总结-精读-翻译-思维导图这层层递进的功能

我订阅和使用的AI产品　

产品的某个功能可能很出彩但核心一定要满足用户需求，他可以骗你感情，但只有掏钱的时候才能看出价值，这里我只说我到现在还在订阅的产品。　

Monica&POE：LLM的大杂烩产品，你可以在上面使用大部分提供了API的AI模型，在我这里主要作为Claude的替代品。
Claude：原生的Claude在artifact、project和提示词优化的加持下真的很强，和只使用API的完全是两个概念，但是他不让我用，那没办法了。
Krea AI：图像和视频的大杂烩套壳产品，你可以在上面使用很多AI图像功能以及大部分有API的视频模型，但是由于视频生成模型还在快速发展所以API可能没办法用最好的，他们在FLUX基础上构建的图像工作流也相当不错。
可灵、海螺、Pixverse：我前几天退订了Runway，国产这三个视频模型各有各的优势，所以就只能都买，海螺的音频生成也很好，可以试试。
即梦：视频模型也很好，但说实话我是为了他的图像能力订阅的，即梦 2.1 这个图像生成模型在可以写字之后简直是质的飞跃，泛华能力也很好在中国视觉语言和风格上的表达非常强。
Midjourney：谷歌的Imagen3、FLUX甚至即梦都可以在某个层面完爆MJ，但是如果我们将创造力算上的话，还得用MJ，只有MJ能用各种参数给我探索和在创作的感觉。
Gemini：谷歌用Gemini 2.0 Flash这个模型折服了我，更多的是在为AI studio付费，期待这些能力尽快上线到Gemini APP上。
Perplexity：虽然他的AI搜索有各种各样的问题，但是在产品能力和综合体验上，我还是只能相信这个AI搜索。
豆包：字节的人海战略是有效的，我在不方便使用海外产品的时候第一次想起来的也是豆包了，他们也通过豆包扩大了有AI工具需求的用户基本盘和用户教育。
Voicenotes：语音记录产品，可以将你的语音转录为文字，转录后可以基于这些内容生成要点总结，你也可以向AI提问你记录的内容，长音频转录问题还是有，但我找不到更好的了。语音记录的效率比文字高太多了，走在路上或者车上的时候随时都可以记，我的很多内容就是路上通过语音记录然后再整理成文字的。
Youmind：玉伯的AI内容剪藏工具，我原来买的Readwise但这个产品的体验和交互实在太差了，记录了就别想着找到，所以Youmind这个基础体验扎实的产品一出来我就订阅了。

模型和产品的总结就是这些，很多朋友问我怎么学习各种AI能力，我的建议就只有多用，多模仿，很多工具都提供了免费试用，成本没有那么高，先试一试再说。　

祝各位 2025 年健康快乐！