AI普惠,大模型时代的物种繁荣信条

全文2929字,阅读约需9分钟,帮我划重点

划重点

01火山引擎在冬季FORCE原动力大会上发布了更强模型和AI普惠理念,通过平价实现AI普惠。

02推出的通用模型pro综合任务处理能力提升32%,推理上提升13%,指令遵循上提升9%,代码上提升58%。

03除此之外,豆包视觉理解模型将能为企业提供极具性价比的多模态大模型解决方案。

04火山引擎升级了火山方舟、扣子和HiAgent三款平台产品,帮助企业构建AI能力中心。

05由于普惠性,未来视觉大模型的应用将涉及金融、医疗、教育、建筑、体育、物流等诸多行业。

以上内容由腾讯混元大模型生成,仅供参考


图片

在过去两年的大模型热战中,无论是垂直创业的AI六小龙,还是全押AI的互联网大厂,中国的参与者都在不约而同地在寻找大模型商业逻辑的闭环: 

在动辄百亿的资本开支面前,大模型作为某种意义上的基础设施,其规模效应需要尽早浮现,其商业化路径需要尽早清晰化。 

而在12月18日字节火山引擎冬季FORCE原动力大会,关于AI应用该如何商业化的答案,火山引擎给出了非常确定性的答案: 

从技术层面,火山引擎成功的拓展了模型边界,实现多模态发展;而从商业变现层面,火山引擎则是通过平价,实现了AI普惠。 

01 更强的模型,来自火山引擎的视觉智能 

今天的大模型,或者说,作为服务的大模型(MaaS),是AI时代的底座。 

经历了参数爆炸,算法堆积,算法优化这三个必经阶段之后,Force大会上的字节展现出了“更强模型”的能力。 

我们不妨从数字角度,来理解这次的豆包大模型的全面升级: 

此次推出的通用模型pro,相较5月15日发布版本,综合任务处理能力较5月份提升32%,在推理上提升13%,在指令遵循上提升9%,在代码上提升58%,在数学上提升43%,在专业知识领域能力提升54%,能力已全面对齐GPT-4o; 

音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品; 

文生图模型2.1版本,更是在业界首次实现精准生成汉字和一句话P图的产品化能力。 

发布豆包·3D生成模型,支持文生3D、图生3D及多模态生成,以及复杂物品、物品组合大规模场景生成,支持多模态3D资产编辑。 

更值得重点关注的是,在开幕式上率先正式发布的豆包视觉理解模型,将能够为企业提供极具性价比的多模态大模型解决方案。 

很显然,在一个信息80%来自于视觉的世界里,视觉理解将极大的拓展大模型的能力边界,同时也将降低人们与大模型交互门槛,为大模型解锁更丰富的应用场景。 

根据火山引擎总裁谭待介绍,豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务;此外,该模型有着细腻的视觉描述和创作能力。 

此前,豆包视觉理解模型已经接入豆包App和PC端产品。明年1月,豆包视频生成大模型还将正式发布,在视觉这个最重要的模态上面,字节产品拥有不小优势。 

图片

02 火山引擎的AI普惠理念,是科技发展的必然走向 

今天的大模型竞争,让我常常想起70年前,美国原子能委员会主席的刘易斯·施特劳斯,在1954年全国科学作家协会的演讲中,他一锤定音的提到“Too cheap to meter”(太过廉价而无需计量),这一短语从此一炮走红: 

“我们可以期望:我们的子孙后代将在家中享受(too cheap to meter)廉价到无需计量的电能;世界上周期性的地区性大饥荒将被视为历史事件;我们将毫不费力地在海上、海底和空中旅行,危险极小,速度极快;随着人类逐渐了解导致衰老的原因,子孙的寿命将比我们长得多。” 

在领导核能开发和管理的施特劳斯眼中,技术丰饶主义不再是一种假设,而是一种坚定乐观主义的铁律。 

这一点在互联网和AI主导的比特世界成为了现实:今天的流量边际成本几乎为零,在互联网领域实现了科技物种大爆发,无穷多的参差多态由此诞生。 

从社交网络,到短视频平台,再到社交电商和AI大模型,一切垄断都被无情打破,技术爆发每天都在上演。 

而全球数以十亿计的科技开发者和数以千万计的互联网用户,都在这场物种大爆发中,得到了前所未有的丰饶体验。 

科技进步必然带来廉价和普惠,而AI的普惠时代,从本次字节发布会中的定价逻辑中也可窥得一二: 

在此次发布会中,能力已经跟GPT-4o对齐的豆包通用模型pro,价格只有前者的1/8。 

而最新重磅推出的豆包视觉理解模型,会把图像编码转换为tokens,千tokens输入价格仅为0.003元,也就是3厘;换算一下大概是一元钱就可处理284张720P的图片,这一价格比国内外同行便宜85%。 

低价并不是想挑起行业在供给侧的价格战,而遵循的是火山引擎技术进步带来AI普惠愿景: 

豆包大模型的普惠,不是简单的不计成本价格战,而是通过更强的技术优化,降低使用成本,让更多用户都能用得起多模态模型的同时,豆包大模型本身仍然能保持合理毛利。 

我们不妨用火山引擎总裁谭待自己的朋友圈来说明这个问题:豆包大模型能力强和价格低的背面,仍然能够获得合理的毛利,是技术能力,工程能力,软硬件结合能力的综合体现。 

图片

一如当年的互联网的繁荣,靠的绝不是小院高墙式的价格歧视,而是基于开源的AI普惠逻辑:只有建立在AI普惠基础上物种大爆发,才会带来全行业的更健康高速的增长。 

图片

03 更低门槛,技术普惠的开启 

更强的模型,搭配更低的使用价格,让使用者、开发者、B端企业的使用门槛都被大大降低了。与企业生产力相关的B端场景,豆包大模型也获得了众多企业客户青睐。 

今天,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。 

最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有大幅增长。 

此外,本次发布会火山引擎升级了火山方舟、扣子和HiAgent 三款平台产品,帮助企业构建好自身的 AI能力中心,高效开发 AI 应用;其中,火山方舟发布了大模型记忆方案,并推出prefix cache 和 session cache API,降低延迟和成本。 

火山方舟还带来全域 AI 搜索,具备场景化搜索推荐一体化、企业私域信息整合等服务。 

04 科技就是一个普惠史 

纵观人类科技发展史,就是一个用更低的价格做出更好的产品、完成最大程度普惠的过程。 

如芯片上晶体管密度在摩尔定律的指导下快速提升,但单位晶体管的制造成本却以更快的速度下降,这也才有了后来所有人都能用得起的电视、电脑、手机以及互联网。 

在近几年,马斯克更是将特斯拉汽车的价格,从最初的166万,降到100万以内,再降到50万以内,现在是30万以内,未来计划推更平价的版本。这种策略才使得优质好价新能源汽车得以在全球快速普及。 

一如当年的互联网时代,平台和用户,形成了相互促进的双边“网络效应”,最后大幅降低了实体经济的交易成本,并催生出欣欣向荣的新经济业态,让全球至今仍在受益。 

AI在大发展两年之后,摸索出方法的头部企业,也开始进入生态构建阶段。 

如果我们站在生态角度,就更能理解火山引擎字面的真实含义:火山意味着爆发,AI在B端和C端应用的层出不穷;但爆发需要有强力的引擎,也就是极强的经济性,只有将模型使用成本降下来,才能发挥出引擎的作用。 

以这次发布的豆包视觉理解模型为例,在普惠的基础上,该模型彩可以更好的在众多日常生活场景中大显身手: 

•电商场景,用豆包视觉理解模型构建出多模态的 AI搜索和推荐,帮助用户轻松实现拍照找同款,而且基于已经购买的商品,可以去进一步的推荐适合的穿搭,客户体验全面升级;在电商营销侧,还可以帮助商家充分描述商品细节,高效发布种草广告。 

•教育场景,豆包视觉理解模型不仅可以让传统的拍照搜题更加智能,还可以进一步对孩子的作业进行批改和针对性的辅导,优化作文、科普知识,提高儿童教育效率。 

•旅游场景,帮助游客看外文菜单、讲解照片中建筑的背景知识等等。 

不仅仅是以上场景,豆包视觉理解模型在发布之前,已经协同数百家企业进行了测试。由于普惠性,未来视觉大模型的应用,必将涉及金融、医疗、教育、建筑、体育、物流等诸多行业。 

05 结语 

AI大模型的核心底层价值之一,仍然是基于信息将人在场景中进行连接。 

今天火山引擎推动的高性能、低成本模型,让每一位开发者和每一家企业都能用得起。而创新的力量,往往来自很多看似并不起眼的小团队。当越来越多有想法、有冲劲的创业者投身AI大潮中,大模型或许很快就会走进每个人的生活。