东北大学洪宇,周平,柴天佑等 | CDIM:一种基于视觉转换器与无监督域适应的跨域工况识别方法

图片
图片
#无监督域适应#视觉转换器#跨域识别#博弈策略#自细化策略#氧化亚铁含量识别
图片

研究意义

烧结过程就是将各种粉状含铁原料,配入适量的燃料和熔剂,加入适量的水,经混合和造球后在烧结设备上使物料发生一系列物理化学变化,将矿粉颗粒黏结成块,从而形成作为高炉炼铁原料的烧结矿。衡量烧结矿质量好坏的指标众多,主要包括:烧结矿品位、烧结矿碱度、氧化亚铁(Ferrous Oxide,FeO)含量等。这其中,烧结矿氧化亚铁(Ferrous Oxide,FeO)含量直接影响烧结矿的还原度和强度,并最终决定高炉冶炼与钢铁生产的质量水平。因此,精确检测烧结矿FeO含量对于确保钢铁冶炼的高质量至关重要。目前,FeO含量的检测方法主要分为三类,即:化学分析法、机理模型法和数据驱动法。其中,化学分析法最为精确但检测时间长、滞后性大,而机理模型法通过建立烧结过程的数学模型来预测FeO含量。但是烧结过程极其复杂,使得前述两种方法难以得到准确的烧结机理模型,因而准确性和实用性不足;数据驱动法通过烧结过程变量来构建预测模型,但传统数据驱动方法依赖数据质量和特征选择,模型解释性低。
实际烧结过程中,FeO含量和烧结状态可以通过烧结机尾横截面图像直观反映,而且不需要人工选择特征变量。因此,图像数据驱动的FeO含量检测法在近几年中得到了越来越多的关注。然而,现有基于图像数据的FeO含量检测法普遍存在两个弊端:一方面,这些方法通常假设训练数据与测试数据具有相同的分布,然而在实际工业场景中,烧结工艺受操作条件的影响较大,如烧结机机速和料层平均厚度的变化,导致训练数据和测试数据的分布存在显著差异。另一方面,现有方法大多依赖大量标签数据支持,数据收集成本高昂且耗时费力。为解决上述难题,如何选择合适的处理方法成为当前研究的焦点。

图片
图1 典型带式烧结过程示意图
图片

本文工作

针对上述实际工程问题和现有方法的不足,本文提出一种基于无监督Vision Transformer的跨域识别方法(Cross-Domain Identification Methods,CDIM),可有效解决标签数据稀缺和数据分布不一致对工况检测的不利影响,实现烧结矿FeO含量的准确识别。
本文的创新点如下:
(1) 针对标签数据稀缺和数据分布不一致的问题,通过引入UDA技术,有效减少了对标签数据的依赖,避免了数据收集的高昂成本,同时减缓了不同工况下数据分布不一致对模型性能的影响。
(2) 针对源域和目标域的特征对齐问题,设计了域混合模块(Domain Mixing Module, DMM)、局部域适应模块(Local Domain Adaptation Module, LDAM)和博弈策略(Game Strategies, GS)与自细化策略(Self-Refinement Strategies, SRS)。首先,通过DMM构建中间域,以便在域级别上进行粗粒度层面的对齐;然后,LDAM在Token级别上进行细粒度层面的对齐,提取域不变特征;最后,GS和SRS通过优化相应的损失函数进一步增强模型的准确性。
(3) 提出了一种基于无监督Vision Transformer的跨域图像识别方法,用于识别烧结矿中的FeO含量,特别适合在源域和目标域数据分布不一致的情况下进行识别,能有效提取域不变特征,减小域差异,实现跨域知识迁移,确保模型在不同工况下的性能。
图片
图2 所提CDIM方法结构图
图片
实验结果
STCI数据集共有3个域,即D1、D2、D3,分别对应不同的工况。每个域包含3个类别,其FeO含量分别在区间[10.00,10.99],[8.00,8.99]和[9.00,9.99]中,相应标签分别为0、1、2。本实验中,每个类别共收集1500幅实际工业的烧结机尾横截面图像,即每个域共有4500幅图像,因此该数据集共有13500幅烧结机尾横截面图像。
为了进一步验证所提方法的优越性,对比所提方法与2种最先进的模型,即对抗性适应ViT(AATrans)和跨域ViT(CDTrans)在STCI数据集上的表现,为了更直观地展示所提方法在实际工业的优势,进一步使用混淆矩阵和t-SNE可视化技术,以任务D2®D3为例,绘制了每种方法的混淆矩阵和学习特征的t-SNE可视化图,如图3和图4所示。从图3可以看到,所提方法在分类精度上显著优于其他方法,误分类率最低,显示出了更强的知识迁移能力。图4所示的t-SNE可视化结果进一步说明了这一差异:AATrans的可视化结果中,蓝点和红点存在较大面积的重叠,类边界模糊,表现最差;CDTrans的可视化结果中,虽然红点的类边界较为清晰,但蓝点之间仍存在部分重叠,类边界不够明确。相比之下,所提CDIM方法的蓝点与红点聚合度最高,类边界最为清晰,成功实现了特征对齐和精确分类。
图片
图3 不同方法在任务D2®D3上的混淆矩阵

图片
图4 不同方法在任务D2®D3上的t-SNE可视化结果

为探究所提CDIM性能优于其他2种对比方法的原因,从模型内部的注意力机制入手,以任务D2®D3为例,对3种方法在STCI中的注意力图进行了可视化分析,如图5所示。在这些图中,颜色越深表示注意力分数越高。图5中,图像从下到上的类别分别为0、1、2。观察可知,AATrans的深色区域最少且分布较为分散,表明其注意力无法有效聚焦于关键区域。CDTrans的深色区域相对集中,但仍然遗漏了一些火焰部分。相比之下,所提方法的深色区域最多,注意力高度集中在火焰区域,同时有效忽略了不含信息的黑色背景。这说明所提方法能够更精准地捕捉与FeO含量相关的关键特征,从而提升了模型的识别性能。值得注意的是,CDTrans和所提方法在类别为0的样本上注意力图最为接近,这与图3中两者在类别0上的混淆矩阵准确率最接近的现象相互验证。综上所述,所提CDIM方法在注意力分配上表现出明显优势,这也是其性能优于其他两种方法的主要原因。
图片
图5 STCI中各类方法的注意力图可视化
图片