最近观察到一个有意思的趋势,就是 Agent 在深度研究之后,都开始朝着多模态的方向走。
以前跟大家介绍过这个 GenFlow 这个产品,最近发现它升级了 3.0 版,它以前能跟其他 Agent 一样,做深度搜索,能调用 MCP 工具,特色是打通了百度文库和网盘里的资料,所以深度研究的时候能把自己的数据也带上。
3.0 升级完之后,它开始变成了全能的全模态的Agent,Office 三件套之外,在聊天+自由画布的这个形态里,图片、视频、音乐、播客都加了进去。这也代表了现在 Agent 的发展趋势。
昨天去百度世界大会和大家分享用户用 ListenHub 赚钱的一些玩法,然后路过了 文库网盘 GenFlow 的会场,真的是座位全满,后面的过道还挤了两排人,都快挤不进去了,是最火的一个会场。
回到家我就体验了一下。
首先,用下来最强的就是它的PPT功能。
我最近在思考公司12月的团建去哪儿,但实在没空自己看攻略啥的,就让它帮忙把我感兴趣的地方生成一个介绍。
这个PPT功能,就是你把需要做的东西说出来,然后它就开始咣咣自动做,我把它当图形版的深度研究来用了。
我录了个屏,大家可以看一下,不仅是模板排版,还有每块的内容全都是一步步生成的,整个能生成好几十页,而且内容都是可以编辑的,模板也可以用指令修改,非常方便。
而且文库智能PPT是现在国内用户量最大的,换模板功能也很方便,里边模板的颜值还挺高的,迭代速度非常快。
PPT生成完之后呢,有可能还需要补充内容。
比如说这个团建的攻略,团建肯定要节省预算嘛,所以我就让他加了一页。
PPT大部分时候都是用来演讲的。讲PPT这件事情,自己写也很费劲,它提供一键生成演讲稿的功能,挺方便的。
现在,GenFlow3.0还能够生图、生视频了。
比如说我前几天去日潭公园玩,把照片贴了上去,是用新的相机拍摄的,颜色比较胶片,就没那么鲜艳,自己看挺好,但发网上不是所有人能get到,所以我让GenFlow调一个更加鲜艳的版本。
GenFlow实现了用自然语言P图,颜色很鲜艳,很适合发布小红书。
有一个功能叫魔法视频,点一下这个按钮,图片就动起来了。
这个图片处理功能还真的挺好用的。最近美团新出了带挡把手的挡版单车,我拍了一张照片,然后我让GenFlowP成蓝色的饿了么版本。
然后我又传了一张哈基米的图,我想把我的头换成哈基米,就把哈基米那个地方画个箭头指向我的头。然后选中魔法生图,它就理解了我的意思,生成了一个哈基米版的我。
从产品层面说,GenFlow 3.0能覆盖的模态非常全面,只要你有需要,就可以直接对话,让 AI 自动化进行多任务执行。
这样的话,无论是高阶的AI玩家,还是小白都能用。
从技术层面来说,GenFow 一直是基于文库网盘底层的混合专家模型,驱动多模态内容的生成和工作流的编排,一开始就在朝着全模态的方向在走。
这也是明年 Agent 产品整体的大趋势。