本文为中国社会科学院大学教授、国务院原副秘书长江小涓在12月15日深圳香蜜湖国际金融科技研究院和中国数字金融合作论坛联合举办的深圳香蜜湖金融峰会(2024)“智能金融:创新、挑战与展望”主题论坛上所作的主题交流,研究院根据发言实录整理。
江小涓
中国社会科学院大学教授
国务院原副秘书长
各位嘉宾,大家下午好,很高兴能够参加今天这场重要研讨。智能问题、数字问题一直是我密集研究的领域,我认真学习了今天发布的《香蜜湖智能金融发展报告(2023/2024)》(以下简称“报告”),想在报告的基础上谈三点看法。
第一,希望进一步研究如何快速提升智能金融技术和应用水平。报告指出,2023年以来,近80%的智能金融应用案例涉及生成式AI技术,其中一半为大小模型协同模式,但比较前沿、有重要突破、让人眼前一亮的技术创新仍然偏少。目前智能金融应用所集中的运营管理、客户营销、风险合规等领域,都是传统数字金融的突出领域,而智能金融产品创新应该有一些新特点,正如前面专家分享的“应用+AI”和“AI+业务”是两个不同概念。总体而言,现在讲的智能金融,无论是深层次还是预训练的,这类前沿模型表现都不算特别突出,部分应用可以说是智能金融,也可以说是此前所讲的数字金融、金融大数据等。
过去一段数字金融时期,我国与美国同处于全球第一梯队,无论是银行还是银行间机构、金融交易还是金融监管。某些方面,比如大型商业银行数字化转型、金融科技专利申请数量和比例、数字普惠能力和实践、银行间市场交易基础设施数字化等我国不比美国差,甚至比美国强。美联储发文章认为美国银行间市场交易基础设施的数字化不及中国走得快。国家知识产权局发布的《2022年知识产权年报》数据显示,金融科技专利申请量占全球总量的比重方面,中国占比44.3%,美国占比20.2%,虽然金融科技专利数量不能完全说明问题,但也一定程度上反映我国金融科技发展实力。
智能化到底能干什么?我认为数字时代AI最重要是观察解决复杂问题。以AI技术在医疗健康领域应用为例,一是AI技术可以帮助解决已知复杂健康问题,揭示以往人们已知方向但却难以及时证实的复杂关联。科学家们早已明确,20种氨基酸的不同组合可以形成不同蛋白质,但逐个做出来太慢。借助AI技术,AlphaFold2预测蛋白质三维结构,精确预测超过100万个物种的2.14亿个蛋白质三维结构。二是揭示未知复杂的健康问题。传统药物的发现主要依赖于实验筛选,效率低且成功率有限,而AI技术可以通过分析大量的化学、生物和临床数据,自动识别潜在的药物靶点和候选化合物,药物发现效率大幅提升。Insilico Medicine公司利用AI技术在短短46天内设计出了新的抗衰老药物。三是洞察颗粒化场景并个性化赋能健康问题。精准医疗既要求海量数据,又要求数据对场景的刻画颗粒化更细、覆盖面更广。AI通过对遗传信息、生物标志物、生活习惯、社会环境等多维度复杂颗粒数据分析,可以实现对患者的个性化医疗服务。
多模态海量实时数据提升金融问题研究能力,支持AI解决复杂问题,无论宏观还是微观决策。金融相关市场主体的行为是投资者、消费者、企业、产业和制度的动态复杂系统,过往小样本数据量和少数测量维度难以真实描述复杂金融过程。数字时代,海量数据支持大样本和更多维度的行为分析,特别是金融体系中决策者并不都是完全理性的,经常受到情绪、情感、情景、心理、价值判断以及偶然因素的影响。对这些因素进行测度在以往很难做到,如今高频大数据,例如媒体平台文本数据包含了经济主体丰富的情绪、情感、价值等信息,可以提取并定量测度。近年来,我国经济政策特别强调“信心和预期”,是典型的复杂科学问题,本质涉及对上述因素的分析测定。研究构建更有效的人工智能模型,形成对多模态数据特别是文本数据的汇聚处理能力,支持对货币政策效果进行更有效的预判和决策较为重要。
下一步,金融领域要加快研究前沿预训练深层次大模型在金融分析方面的应用。为什么要加快?因为智能时代,高水平大模型的规模效应(Scaling Law)使先行者强者愈强,落后者愈发困难,所以很迫切。传统线下规模经济会使大规模生产成本更低,而数据和AI时代使得规模报酬递增特点由“边际增量”改变为“新能力涌现”。随着模型规模的增加,大模型性能亦会提高。当规模越过一个阈值后,还会涌现后来者无法企及的全新能力,这与小模型完全不同,所以头部企业大模型自我加强能力非常强。智能时代,先行者优势比以往其他时期更加突出。最近OpenAI系列发布会第二场:强化微调,通过少量数据让模型在专业领域达到专家的水平。跟此前不同,它不是通过数据记住答案,而是在微调过程中训练自己在某个领域的推理能力找到正确答案。
先行者在快速前进和突破。人工智能已在多项基准测试中超越人类,其中包括图像分类、视觉推理和英语理解。而在更复杂的任务,如竞赛级数学、视觉常识推理和规划上,人工智能依然落后于人类,但也展现出非常快的学习速度。山姆·奥特曼所说的“万物摩尔定律”,即“宇宙中的智能数量将每18个月翻一翻”,反映了人工智能技术的快速发展,推动社会经济结构深刻变革。未来,我认为越是复杂的决策问题,大模型的介入越重要,智能金融技术应用和突破不能满足于有一点智能意识的技术进展。
第二,希望进一步加强对金融数据放出和复用问题的研究。智能的源泉是数据,报告对数据问题未做过多讨论,可能认为金融机构运用自身数据发展智能金融应用是题中应有之义。这在数字化时代尚可走通,但是智能化过程对数据的需求是指数级增长,不能获得海量数据并不断复用会抑制智能化进程。我国金融数据规模巨大结构性好,如果能放出和用好数据,我国智能金融就能走在世界前列。
数据问题与大模型等前沿模型发展息息相关。全球数据产业竞争激烈,要放出和用好数据,才能加快提升智能时代产业竞争力。我国数字金融发展能够领先而当前智能金融发展略显落后,一个重要原因是缺乏优秀的开源数据集是我国大模型发展的重要制约因素。大模型厂商使用的模型训练数据可分为开源数据集、网络爬虫数据、商业采购及合作授权数据、自有业务数据以及合成数据五类。据不完全统计,我国头部厂商自有业务数据占比显著高于美国,虽然开源数据和网络爬虫数据总量相近,但我国厂商可直接利用的开源数据集占比低,网站数据的获取成本更高。同时,我国商业采购及合作授权占比高,许多数据需要通过点对点的合作采购,影响模型训练效益。
高水平的海量数据是智能金融发展前提的条件。在确保安全、匿名化的情况下做好数据供应和分享非常重要。以某企业为例,为了向客户提供综合金融资产配置服务,它建设了大规模数据采集与标注平台,进行语音、图像、视频及文本多模态数据标注,以满足模型的数据需要。在需要大量数据的前沿模型发展中,数据的放出和不断复用非常重要。现代金融机构都重视推进各自“数据增强业务”,可收费将数据放出,让更多社会企业能够有数据进行创新,实现“数据使能AI”。虽然金融数据是高度敏感数据集,但已可用多种技术保障数据安全,在三权分置法律保证下实现“原始数据不出域、数据可用不可见”。把控好数据安全,重点是形成协同协作互用的理念和路径。2024年10月,美国消费者金融保护局(CFPB)确定,将赋予消费者对其个人财务数据拥有更多权利、隐私和安全。要求金融机构等金融提供商在消费者要求下解锁个人财务数据并将其免费转移给另一家供应商。该规则在个人数据复用。解决金融服务市场垄断问题等方面做出重要探索。
第三,希望能够统筹商业诉求和国家目标,引导智能金融发展方向。我国国有大型商业银行除自身商业目标外,还承担着国家货币政策传导等其他重要目标,因此我认为,可能需要引导智能金融聚焦以下较为重要的发展方向:一是促进金融业效率提升和风险控制。这是商业银行的主要目标,产品创新、业务流程创新、客户服务创新等都是为了实现自身效率提升和风险控制两大目标。二是我们常说的普惠金融,即促进公平配置金融资源。目前智能金融模型的一个突出特点是,模型预训练后抓取很多大数据,更清晰地将不同客户进行分类分级信用评估,反而让难得到金融资源配置的小企业更得不到配置。信息高度集中会导致强者越强、弱者越弱,要思考如何处理好模型应用的问题。三是促进货币政策效果有效传导,既要感知又要引导。四是促进穿透式监管能力提升。目前我国智能金融服务市场以商业目标为主,我认为大模型等发展还需要考虑国家目标。例如,以智能技术提升风险认知和监管能力。一方面,数字技术能够增强金融机构风险管理能力,另一方面,也能够增强监管机构监管能力。
此外,还要重视智能技术带来新的风险和失衡。智能金融创新内含技术风险、操作风险,甚至诱发系统风险之可能。比如各个金融机构采用的量化模型越来越同质化,策略越来越趋向一致,同向操作带来风险。传统金融市场分散风险的重要机理,是每个参与者预期不一样、风险偏好不一样,所以不会出现一边倒的操作。现在如果都采用同样的数据来源、量化模型和投资策略,可能产生同向操作风险。再加上数字社交网络和自媒体内容产业的爆发,强化了叙事对投资者预期和市场情绪的引领,尤其是提高了个人投资者一致性预期和集体行动的可能性,这些都可能加剧金融市场波动。
再次感谢主办方邀请,以上是我的分享,谢谢!