遥感图像具有地物覆盖范围广、地物信息复杂、人工标注费时等特点,将深度神经网络应用于遥感图像处理后,能够节省人力资源并提高并行处理效率,是推动遥感图像自动化处理平台发展的重要基石。目前,基于深度学习的遥感图像场景分类中存在如下问题,一是网络过度关注全局特征而忽略局部特征;二是单向层次化特征提取方式导致浅层特征图缺乏语义信息而深层特征图存在空间信息缺失。为此, 我校计算机与信息学院王鑫博士与英国莱斯特大学(University of Leicester)Huiyu Zhou教授团队共同开展基于增强特征金字塔网络和深度语义嵌入的遥感图像场景分类研究,在遥感图像场景分类精度和可靠性等方面取得突破性进展,研究结果为后续遥感图像的准确解译提供重要参考依据。
该方法的主要工作在于包括,通过增强特征金字塔模块对深层特征图丰富的语义信息进行传播,以弥补浅层特征图该信息的缺失;通过跨尺度信息融合模块保持不同特征图共性的同时也利用各自优势特征以增强特征;通过双支路深层特征融合模块的不同感受野提取多尺度上下文信息,引导网络兼顾全局特征和局部特征。结果证明,所提出的算法在多个大规模公开数据集上的分类表现均远好于基准方法,与业内前沿方法相比具有明显优势。
图1. 基于增强特征金字塔网络和深度语义嵌入的遥感图像场景分类框架
高分遥感图像场景分类网络整体框架(图1)主要由:增强特征金字塔模块(Enhanced Feature Pyramid Network,EFPN)(图2)、深度语义嵌入模块(Deep Semantic Embedding, DSE)(图3)、双支路深层特征融合模块(Two-branch Deep Feature Fusion,TDFF)(图4)以及场景分类器模块(Scene Classifier)构成。跟现有先进深度神经网络场景分类模型相比,提出的网络分类精度明显提升,且在保持分类高精度的同时即使在不同训练比例下仍能保持良好的泛化性。
图2. 增强特征金字塔模块(EFPN)
图3. 深度语义嵌入模块(DSE)
图4. 双支路深层特征融合模块(TDFF)
作者将提出方法在著名的UCM、AID等数据集上进行了实验,图5为在AID上不同训练测试比例下的混淆矩阵。可以看出,提出模型对具有高类间相似性的类别能做到准确分类,并对具有相似地物和纹理特征的类别的预测精度也较高。
图5. 提出方法在AID数据集上的分类混淆矩阵
为探明不同模块在分类性能上起到的作用,进行了全面的消融实验,图6显示的是不同方案在UCM数据集每一个类别上的分类精度,可以看出,无论在哪个训练条件下,缺少EFPN的网络性能降低最显著,缺失CIF和TDFF的网络在部分类别上性能略微下降,而三者集合的方法取得优秀性能,这表明提出的方法每个模块都是有必要且有作用的。
图6. 消融实验所用模型结构在各类别上的准确率
研究工作由中国中央高校基本科研业务费项目、江苏省六大人才高峰项目、江苏政府留学奖学金、英国皇家学会牛顿高级学者基金、欧盟地平线2020计划项目等提供经费支持。相关成果以“Enhanced Feature Pyramid Network with Deep Semantic Embedding for Remote Sensing Scene Classification”为题于2021年9月发表于《IEEE Transactions on Geoscience and Remote Sensing。
论文DOI:10.1109/TGRS.2020.3044655
链接:https://ieeexplore.ieee.org/document/9314283