划重点
01金融行业正经历数字化变革,彭博终端成为把握脉搏的探测仪,但价格高昂。
02越来越多的企业开始关注数据的重要性,尝试数字化解决方案。
03火山引擎推出数据飞轮2.0模式,利用大模型将智能用数提升到新阶段。
04数据飞轮2.0实现结构化、非结构化、半结构化数据的统一计算、管理和存储。
05由于此,数据飞轮2.0有望降低企业数据开发和运维成本,提高业务员工的数据生产力。
以上内容由腾讯混元大模型生成,仅供参考
2019年3月,一代债券之王格罗斯宣布退休,彭博创始人迈克尔·布隆伯格宣布赠送三台终端,供这位七旬老汉终生免费使用。
作为离钱最近的行业,金融以数据为生命线,彭博终端则是把握脉搏的探测仪。早在2015年,格罗斯就将使用多年的彭博键盘捐给美国史密斯国家博物馆,作为“现代金融世界的标志”展出。不止格罗斯,彭博终端改变了整整一代金融从业者的交易方式。
把复杂的计算机语言转化成华尔街精英的常用词汇,从产品功能到界面设计都为交易员、分析师们量身打造,让彭博终端自问世后便大受欢迎——当然,价格同样不菲,上万美元的服务费用时刻映衬着华尔街的纸醉金迷。
数字化并非金融业的专利,自互联网产业拔地而起,各行各业的企业家、小老板们开始把扁平管理、数据消费等现代经营理念挂在嘴边,数据的重要性前所未有地提升,与土地、劳动力、资本、技术并称为五大生产要素。
用数据指导业务、提高效率不再是华尔街精英和互联网极客的特权,走马上任的CIO(首席信息官)和CTO面前正摆放着一个全新的命题:
既然数字化大势所趋,如何找到属于自己的“彭博终端”?
数据飞轮:流动的数据才有价值
2020年,德邦快递招兵买马,计划打造一套数字化营销系统。
像快递这样的劳动密集型行业,在人们的惯常印象中离“数字化”相去甚远,即使近年加大投入,外界对其数字化场景的想象也不过是物流追踪。
但实际上,伴随快递业与电商行业的深度绑定,快递不仅是电商运转的重要基建,衍生出的种种数据也是一份详实的行业统计公报。
身处其间的快递企业显然深知这一点,对数据优化业务流程的诉求也极其迫切。德邦快递尝试过不少数字化方案,但要么无法承载海量用户规模,要么数据应用深度不足。
类似症结并非快递业独有,而是许多行业面临的共通问题:数字资产和业务应用的两相割裂。
快递行业做营销常常需要结合时令变化和区域特点,在各地市场精耕细作,比如11月正值苹果上市的季节,往往得关注陕西、甘肃、新疆等产区的用户营销。
但在实际应用中,由于数据处理滞后等种种原因,营销策略部署不及时、动作变形的情况时有发生。
结果就是业务追着用户跑,一线人员收到营销线索、总部人员确定营销动作时,市场已经变了一幅景象。
2023年,德邦快递敲定了与火山引擎的合作,结合包括客户数据平台VeCDP、增长营销平台GMP、A/B测试产品DataTester在内的系列数据产品,尝试构建以数据消费为中心的企业数智升级新模式“数据飞轮”。
在增长营销平台GMP上,德邦快递建立了超过15条自动化营销链路,以往德邦快递每个月只能进行3-5场营销活动,现在单月营销活动峰值达到100场。
这个过程中,数据本身并没有改变,改变的是数据的流通路径。也就是说,数据不能处在被“存放”的状态,需要“流动”到业务中去。
而火山引擎“数据飞轮”的含义,便在于数据的“流动”:一个又一个具体业务中的数据消费,加速了决策洞察。数据真正赋能业务带来好的结果时,会推动更多、更频繁的数据消费行为,从而构成第一个面向企业业务应用的“飞轮”。
业务的增长意味着更大规模的数据,伴随数据资产的积累和建设,数据研发效率也会提升,更好、更快的数据产品,让业务更愿意使用,成为第二个面向企业数据资产的“飞轮”。
数据消费则是数据流动过程中的核心环节:不能让流动在一线的海量数据真正被消费起来,为业务所用,那么数据就只有单纯的“展示”功能。这实际上是一种资源浪费。
长期的实践中,火山引擎连同各行各业积累了大量数据飞轮的实践样本,其对应的大背景其实是中国企业的“数字化”过程。时至今日,伴随生成式AI的日新月异,一大批企业又走向了“智能化”的隘口。
脱胎于字节跳动数据驱动的数据飞轮,让越来越多行业与公司感受了“数字化”的效率,当“数智化”的诉求迫近,新的方法与实践也应运而生。
腾笼换鸟:人工智能改变了什么
2010年,《经济学人》提出了一套由工业用电量、中长期信贷余额和铁路货运量组成的指标,用于评估中国GDP增长量。花旗银行在此基础上对各项指数进行赋权,最终得出一个日后广为人知的计算公式:
工业用电量增速*40%+中长期贷款余额增速*35%+铁路货运量增速*25%
看似脑回路清奇的发明自有其合理性,这三个指标都与经济增长挂钩最紧密,一定程度上挤掉了统计数字的水分。
这种对于数据的深度挖掘,在当下已经成为一种普遍性诉求。从“三张表”里的核心财务指标,到APP里每一个菜单的点击和跳出、用户或普通或离奇的交互行为,都与企业真实的经营关联紧密。
如何处理、利用这些数据,各行各业都在名为数字化的浪潮下摸索前行,引入火山引擎这样的合作伙伴,成了越来越多企业的选择。
作为火山引擎数智平台团队负责人,郭东东与团队推进一个个案例落地的同时,也敏锐地捕捉到了企业更高阶的数智化升级需求。
随着大模型在各个领域井喷出现,AI赋能数字化逐渐成为业内议题之一,但它的另一面是惊人的试错成本。这种进退两难是数据飞轮2.0诞生的契机。不久前,火山引擎推出了以AI为核心的数据飞轮2.0模式,利用大模型将“智能用数”抬升到一个新阶段。
郭东东将数据飞轮2.0的变化总结为两点:
一是Data For AI的升级。通过升级多模态数据湖技术,数据飞轮2.0实现了结构化、非结构化、半结构化数据的统一计算、管理和存储,企业得以调配复杂多元的数据资产,将数据处理与模型训练、微调、知识库高效协同。
其中,非结构化数据的应用与大模型密切相关。Transformer架构在2017年横空出世后,人工智能的发展从识别走向生成,数据处理能力从结构化数据拓展到了非结构化数据,从而让文档、音频、图片等数据资产最大化地发挥其价值。
举个简单的例子,计算机视觉的时代,机器可以识别规格统一、字体固定——即结构化的车牌数据,但无法分辨迎面驶来的是奔驰E、奔驰S、还是奔驰E改的奔驰S。大模型则可以通过大量的训练识别“车型”这样的非结构化数据。
“大力出奇迹”的训练方法让AGI成为可能,这也是数据飞轮2.0的第二处变化:AI For Data。
在Data Fabric驱动下的ChatBI智能体解决方案中,企业能够建立基于自身多个业务的多套智能数据服务体系:
Data Fabric通过语义层和数据模型的整合,让数据服务变得更加敏捷;而ChatBI智能体则能更贴合业务个性化需求,通过交互理解、数据访问、分析推理和结果生成四大模块,极大提升业务员工的数据生产力,让数据消费变得更加简单直接。
也就是说,原本需要几天到几周才能完成的报表开发工作,现在只需要在IM工具里面通过一句对话就能拿到数据分析结果,数据消费的门槛由此大大降低。
换句话说,利用大模型的特点,企业经营或产品运营中大量难以标签化的类目,都可以经由机器学习“数据化”。AI助手会自己学习不同行业、不同企业、不同业务的“黑话”,逐步学会识别意图和分析结果,从而辅助经营决策。
数据飞轮2.0
在字节跳动内部,数据飞轮2.0的这套解决方案已经覆盖超过200个分析场景,每天处理超过10万次分析请求,平均分析时间降低了 80%;同时,数据开发和运维成本也大幅下降。
在席卷全球的数字化浪潮中,企业同样正在经历一场翻天覆地的变革。三十年前,企业的数字底色是财务三张表和进销存账薄。三十年后,海量数据在企业内部输入、汇聚、流动、输出。
数据流动产生的巨大价值,会是许多企业最核心的资产,而它的价值取决于它被如何利用。
信息平权:人人都可以用好数据
2009年夏天,2000名工人日以继夜地施工,穿过河床、山脉、公路和农庄,铺设了一条从芝加哥到新泽西的光纤通道,将两地信号传输从16毫秒缩短到13毫秒。超过200家高频交易机构疯抢这条月租30万美元的光纤通道,原因无他,3毫秒的差距,可以让他们赚得更多。
商业是一门基于信息不对称的活动,反过来说,数据与信息有时也是一种特权与优势。
金融业的惊人利润可以让他们立足在科学与技术的最前线——量化基金会招募物理学家、天文学家和数据科学家,把办公室打造成智商密度堪比贝尔实验室的科研机构。就像《富可敌国》中说:文艺复兴科技更像是一个自然科学研究所,而不是一个金融机构。
拉长历史来看,“信息优势”一度是富商巨贾的特权,并借由技术的进步迎来了两次平权的浪潮。
19世纪下半叶,电话、电报和无线电的诞生带来了信息传递的革命;20世纪90年代,计算机的普及让信息和数据的传输变成了普罗大众的基础设施。
日新月异的信息技术,将全球的商业盈亏须臾可计,环球同此凉热。
人工智能的浪潮伴随一座座拔地而起的数据中心,带来了新的数据普惠,让企业在“数智化”这个命题前,不必被天文数字的成本吓倒。
英伟达GPU的大买家除了微软、亚马逊这些云计算巨头,还包括达美乐披萨这些看上去不那么高科技的连锁餐饮公司。在OpenAI利用数亿美元投资建成的数据中心训练模型时,达美乐披萨也在自己的机房利用人工智能优化骑手送餐路线,持续践行着“30分钟必达”的承诺。
人工智能的实质是一场算法、算力和数据的艺术,它同样带来了数据的“平权”。不是每一家公司都有足够的财力花30万美元的价格租一条光纤,或是大手一挥建起一座算力可怕的数据中心。
数据飞轮2.0的内核,实际上是给众多企业提供一个通用的底座,让他们享有公平的“信息优势”。
郭东东举了一个例子:一家公司在自建BI系统的三年里,一共生产了1200多个数据看板和8000多个可视化图表。但引入火山引擎“智能数据洞察DataWind”功能的一年半里,现存就有2700多个看板和18000多个可视化图表。
原因在于,自建BI系统的所有报表都需要专业的代码能力,实际上将数据分析的群体限制在了IT部门。而DataWind将代码和数据变成了可视化的拖拽动作,运营人员经过简单培训甚至自己摸索,就能探索复杂的经营数据。
能不能利用好自己的数据,会是企业经营中越来越关键的问题。其核心既包括技术在经营环节中的应用,也在于如何降低技术的使用门槛,让更多人参与到“数智化”的进程其间,而不是空喊口号。
从进销存账薄到财务三张表,从信息化、数字化再到智能化,“用好数据”在任何时候都能成立。只不过在人工智能的时代,所有数据都可以被利用,所有数据都可以有价值。