在深度研究之后,Agent 朝着全模态的超级应用方向进化

最近观察到一个有意思的趋势,就是 Agent 在深度研究之后,都开始朝着多模态的方向走。

以前跟大家介绍过这个 GenFlow 这个产品,最近发现它升级了 3.0 版,它以前能跟其他 Agent 一样,做深度搜索,能调用 MCP 工具,特色是打通了百度文库和网盘里的资料,所以深度研究的时候能把自己的数据也带上。

3.0 升级完之后,它开始变成了全能的全模态的Agent,Office 三件套之外,在聊天+自由画布的这个形态里,图片、视频、音乐、播客都加了进去。这也代表了现在 Agent 的发展趋势。

昨天去百度世界大会和大家分享用户用 ListenHub 赚钱的一些玩法,然后路过了 文库网盘 GenFlow 的会场,真的是座位全满,后面的过道还挤了两排人,都快挤不进去了,是最火的一个会场。

回到家我就体验了一下。

首先,用下来最强的就是它的PPT功能。

我最近在思考公司12月的团建去哪儿,但实在没空自己看攻略啥的,就让它帮忙把我感兴趣的地方生成一个介绍。

这个PPT功能,就是你把需要做的东西说出来,然后它就开始咣咣自动做,我把它当图形版的深度研究来用了。

我录了个屏,大家可以看一下,不仅是模板排版,还有每块的内容全都是一步步生成的,整个能生成好几十页,而且内容都是可以编辑的,模板也可以用指令修改,非常方便。

图片

而且文库智能PPT是现在国内用户量最大的换模板功能也很方便,里边模板的颜值还挺高的,迭代速度非常快。

图片

PPT生成完之后呢,有可能还需要补充内容

比如说这个团建的攻略,团建肯定要节省预算嘛,所以我就让他加了一页。

图片

PPT大部分时候都是用来演讲的。讲PPT这件事情自己写也很费劲,提供一键生成演讲稿的功能,挺方便的。

图片

现在,GenFlow3.0还能够生图、生视频了。

比如说我前几天去日潭公园玩,把照片贴了上去是用新的相机拍摄的,颜色比较胶片,就没那么鲜艳,自己看挺好,但发网上不是所有人能get到,所以我让GenFlow调一个更加鲜艳的版本。


图片

GenFlow实现了用自然语言P图,颜色很鲜艳,很适合发布小红书。

有一个功能叫魔法视频,点一下这个按钮,图片就动起来了。

这个图片处理功能还真的挺好用的。最近美团新出了带挡把手的挡版单车,拍了一张照片,然后我让GenFlowP成蓝色的饿了么版本。

然后我又传了一张哈基米的图,我想把我的头换成哈基米就把哈基米那个地方画个箭头指向我的头。然后选中魔法生图,就理解了我的意思,生成了一个哈基米版的我。


图片

从产品层面说,GenFlow 3.0能覆盖的模态非常全面,只要你有需要,就可以直接对话,让 AI 自动化进行多任务执行

这样的话,无论是高阶的AI玩家,还是小白能用。

从技术层面来说,GenFow 一直是基于文库网盘底层的混合专家模型,驱动多模态内容的生成和工作流的编排,一开始就在朝着全模态的方向在走。

这也是明年 Agent 产品整体的大趋势。