得助多模态防伪大模型，护航过亿授信资金安全落地

CSDN

2025-01-02 14:16发布于湖南

在数字经济蓬勃发展的大背景下，我国始终将金融安全与稳定视为国家战略的重点。面对日益复杂的金融诈骗形势，特别是随着人工智能技术的应用而产生的新型诈骗风险，国家监管机构给予了高度重视并积极应对。

例如，金融消费者权益保护局多次发布风险提示，特别指出了 “AI 换脸”、“AI 换声” 等高科技手段的新型诈骗对金融安全构成的潜在威胁。

近年来，生成式人工智能（AIGC）技术取得了突破性进展，其中深度伪造技术尤为突出。以 “Deepfake” 为代表的深度换脸技术，在图像和视频处理方面实现了高度的智能化和真实化。

随着软件工具的普及，不仅降低了技术获取门槛而且加速攻击方式的多样化，然而，现有的防伪系统及传统深度学习模式存在明显的局限：一个模型只能处理一类攻击，模型只能检测训练过的伪造类型，并且对新兴攻击手段的迭代适应周期通常超过一个月。这些挑战对金融行业造成了极高的交易风险与声誉损害。

鉴于此，结合明确的政策依据和金融行业实际面临的问题，中关村科金推出“得助多模态防伪大模型”，成为解决金融行业应对新型防伪难题的关键途径。这一技术创新不仅能够有效应对不断变化的欺诈行为，还符合国家宏观政策中对金融安全和合规性的要求。

多模态防伪技术框架与应用

防伪大模型将呈现式攻击、对抗样本、深度伪造三个防伪任务整合为统一的技术框架。采用了优化的Vision Transformer架构作为图像图像编码器（图像特征提取模块），同时采用细粒度的文本描述，引导模型挖掘更具判别能力的特征。

图像编码模块

基础ViT模型的结构如下：

Ref. Dosovitskiy, Alexey , et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." International Conference on Learning Representations 2021.

ViT模型是一种用于图像分类的模型，将原图像划分为多个图像块，然后将这些图像块转换为一维向量，加上类别向量和位置向量作为模型输入。模型主体采用基于Transformer的Encoder结构，但调整了Normalization的位置，其中最主要的结构是Multi-head Attention。模型在Blocks堆叠后接全连接层，使用类别向量的输出进行分类，通常将全连接层称为Head，Transformer Encoder部分称为backbone。

图文联合学习

Ref. Fang, H. , Liu, A. , Jiang, N. , Lu, Q. , Zhao, G. , & Wan, J. . VL-FAS: Domain Generalization via Vision-Language Model For Face Anti-Spoofing. ICASSP 2024. IEEE.

上图是优化后的图文联合学习框架，通过细粒度的文本描述来引导ViT学习到更具泛化能力的判别特征。具体而言，利用面部区域的细粒度自然语言描述作为面向多种防伪任务的教师，通过自顶向下的注意力调节将模型的注意力引导到面部区域。此外，为了增强模型的领域泛化能力，提出了一个样本级别的视觉-文本优化模块（Sample-Level Vision-Text Module）。

SLVT利用样本级别的图像-文本对进行对比学习，使视觉编码器能够理解每个图像样本的内在语义，从而减少对领域信息的依赖。经大量实验验证，该方法显著优于最先进技术，并将ViT的性能提高了约两倍。

解释性输出

当前的深度学习模型仍是一个黑盒模型，复杂的深度学习模型可能通过学习大量抽象特征来判断人脸的真实性，但这些特征往往难以直观解释。在实际应用中，多模态人脸防伪技术需要提供详细的解释，以便用户了解为何某个人脸被识别为伪造，以及伪造的具体线索是什么。这种解释性不仅有助于用户理解模型的决策过程，还能增强模型的可解释性。

因此团队将多模态防伪能力与大语言模型的能力相结合，让模型除了输出类别结果之外，还给出了对应的文本描述，包括图像的基础属性，图像类别，伪造线索等。

多模态防伪技术的实际应用与成果

作为领先的大模型技术与应用公司，中关村科金首推的得助多模态防伪大模型为金融机构的身份核验等业务提供了更加安全的保障，累计护航过亿的授信资金安全落地。金融机构基于此技术开发出更多创新的金融产品和服务，如更加安全的移动支付方式、智能化的理财顾问服务等。

同时，与其他领域的先进技术进行融合，拓展金融服务的边界，不仅提升金融机构的核心竞争力，推动了其创新，还为金融机构的可持续发展注入了强大的动力。以下应用成效是基于某头部全国性股份制商业银行的实践案例：

拦截范围广，域外能力强

Scaling law规模效应，得助多模态防伪大模型鉴伪能力随伪造数据的增加而线性增加，基于自身金融业务积累的海量实战数据训练后，域外指标大幅提升，远高于传统单模型的准确率，在保障真人通过率99%的情况，对抗样本攻击拦截率从92%提升到99%，深度伪造的拦截从85%提升到96%。

防伪大模型因基于海量的数据训练后，无论是早期各种材质的打印照片、挖孔面具、3D面具、高清视频翻拍等呈现式攻击，还是到如今的AI换脸、照片活化、对抗样本等深度伪造攻击都可以全部拦截。

迭代周期短，最短缩减至一天

得助多模态防伪大模型具有模型结构不变的特点，将传统模型迭代的方式转变成了数据迭代，实现算法的快速迭代。当新的伪造方法出现后，系统可根据新的攻击样本快速生成变种数据、评测现有防御能力、执行模型调优任务、测试迭代后模型效果、发布新模型推理服务，大幅缩短迭代周期，整体流程可从 90 天缩短至 1 天时间，从某种程度上实现了系统 “零日漏洞”。

可解释性强，可输出攻击样本防伪细节

Chain of thought思维链，防伪大模型拥有前所未有的编码能力，通过编码进行概念延申和推理，充分掌握图片细节所蕴含的内在信息。得助多模态防伪大模型在基于transformer技术架构的基础上，自主研发的可解释防伪模型。传统防伪模型只能给出结果，比如输出fake or true，但防伪大模型犹如孙悟空的“火眼金睛”，可以识别出防伪的具体细节，比如它可以分析出眼睛是玻璃或塑料制作的，皮肤是硅胶合成的，头发是合成纤维的，可实现攻击类型的归因分析，让算法模型分析不再是黑盒。

多模态防伪技术的发展趋势与未来展望

未来，多模态防伪大模型技术的发展将呈现出几个显著趋势，这些趋势不仅预示着技术本身的进步，也反映了对用户需求和法规遵从的深刻理解。

首先，技术将进一步融合更多种类的信息并优化迭代，包括生物特征（如声音特征等）和环境信息。这种多元化的数据来源将极大地增强身份验证的鲁棒性，使其能够更准确地识别个人，并有效抵御各种欺诈行为。

其次，随着算法优化和技术效率的提升，多模态防伪技术将在实时性和便捷性方面取得突破。未来的验证过程将更加迅速流畅，为用户提供几乎无缝的体验。

再次，隐私保护将成为多模态防伪大模型技术发展的另一重要方向。考虑到用户对于个人信息安全日益增长的关注，技术开发者将致力于采用差分隐私等先进方法，在保证高效防伪功能的同时，最大程度上保护用户的隐私。

最后，随着这一领域技术的逐步成熟，制定统一的行业标准和规范变得尤为重要。标准化工作不仅能促进不同系统之间的互操作性，还能推动整个行业的健康发展。通过建立清晰的标准框架，可以更好地指导技术研发和服务部署，加速多模态防伪技术在各行各业中的普及应用。

综上所述，多模态防伪大模型技术在信息安全领域的应用前景十分广阔。它不仅能够在个人隐私保护方面发挥关键作用，也将成为维护经济、政治乃至社交网络安全的重要工具。