基于中位数绝对偏差的异常训练样本探测方法 下载: 733次
1 引言
遥感图像分类是遥感数字图像处理的一个重要内容,其广泛应用于土地利用或覆盖、树种识别、植被区分和变化检测等领域[1-2]。对于大多数遥感图像分类任务来说,在监督分类过程中施加额外的先验信息,所以其分类精度通常优于非监督分类。典型的监督学习框架可以提供一定数量的训练样本用于训练分类器,然后使用训练得到的分类器将目标图像分为不同的类别。因此,监督分类精度的高低在很大程度上取决于训练样本质量的好坏[3-5]。
然而,由于受到条件限制以及人为错误,用于训练分类器的训练样本经常会被污染,被污染的异常训练样本通常分为训练样本不纯和训练样本错选两种情况。当训练样本不纯时,其光谱值的标准差不同于同一地物类别的其他训练样本。当选取某种地物类别的训练样本时,若错误地将其他地物类别的训练样本归为该地物类别,其光谱值的均值往往不同于该地物类别的其他训练样本。针对训练样本中含有异常值的问题,相关学者已经提出了许多方法。一种常见的处理策略是设计不受异常训练样本影响的复杂模型,比如集成了几种分类器优点的集成学习方法,该方法对异常训练样本具有鲁棒性[3,6]。尽管采用集成学习方法能够获得较好的结果,但是大多数现有的集成学习方法仅在训练样本中含有少量的异常训练样本才有效果。另一种处理策略是先识别和剔除异常训练样本,然后使用提纯的训练样本来训练分类器,进而得到更精确的分类结果[7-9],但是当探测和剔除异常训练样本时,均需要大量训练样本的支撑。
为了解决少量训练样本中可能存在异常训练样本的问题,本文采用异常值探测能力强和计算效率高的中位数绝对偏差(MAD)法[10-12]探测和剔除异常训练样本,使用常用的支持向量机(SVM)分类器[13]对遥感图像进行分类,通过与异常训练样本分类结果进行比较,验证MAD法对提高分类精度具有可行性。
2 实验方法
MAD法是所提方法的基础,在介绍实验方法前有必要对该方法进行简单介绍。
2.1 MAD法
给定n个观测值{x1,x2,…,xn}来计算样本中位数,表达式为
当n是奇数时,则中位数取排序为中间的观测值;当n是偶数时,则中位数取排序为n/2和n/2+1的观测值的平均值。
在中位数的基础上发展而来的MAD法是由Hampel等[14-15]提出的,表达式为
式中:b表示常数,通常b=1.4826;j表示第二层循环序号。
为了对观测数据中的异常值进行探测,需要计算每个观测值xi的判定系数D,表达式为
当D值大于给定的阈值时,则认定xi为异常数据。根据大量的科学实验和工程实践结果,选择阈值为2.5较为合理[11]。MAD法能够探测高达50%的异常数据,所以其具有较强的探测效果。由于MAD法具有异常值探测能力强、计算简单和计算效率高等优点,因此实验采用MAD法来探测训练样本中可能存在的异常训练样本。
2.2 基于MAD的异常训练样本探测方法
在遥感图像的监督分类过程中,如果一个地物类别的训练样本包含属于其他地物类别的像元,那么不纯训练样本的标准差明显不同于该地物类别中的其他训练样本。同理,当选择某一地物类别的训练样本时,若错误地将其他地物类别的训练样本归为该地物类别,其均值则不同于该地物类别中的其他训练样本。根据这一特点,采用MAD法来探测地物类别中的不纯(或错选)训练样本。
假设为特定的类别创建t个训练样本,并且需要分类的遥感图像中有d个波段。采用MAD法来探测异常训练样本的过程如下。
对于其他地物类别,可以重复以上异常值探测步骤。
3 实验设计
为了验证所提方法的有效性,有必要设计合理的实验对所提方法的有效性进行评估。为了模拟异常训练样本,可在一个或多个地物类别中人为地选择一些不纯或错选的训练样本,从而验证所提方法探测异常训练样本的效果。需要指出的是,目前评价训练样本可分离性的指标是计算地物类别之间的Jeffries-Matusita距离,其取值范围为[0,2],并认为该数值大于1.9为合格[16]。然而,当数值大于1.9时,仍然可能存在不纯或错选的训练样本。为了验证这一问题,实验中所选训练样本的可分离性指标均大于1.9。下面分别介绍实验数据和分类评价指标。
3.1 实验数据
实验采集的时间为2017年9月14日,实验数据是由Landsat-8获取南昌市部分地区的光学遥感图像。通过图像融合可以获取空间分辨率为15 m的多光谱图像,选取的图像尺寸为1000 pixel×1000 pixel,即15 km×15 km作为实验区域,其中包含建筑物、水体、植被和裸地4种地物类型。为了合理地对实验结果进行比较,所有验证样本都是固定不变的,验证样本如
1)建筑物、水体、植被和裸地所选取的训练样本数量分别为9、7、6和6,其中建筑物中含有三个不纯训练样本,水体中含有一个不纯训练样本,如
2)建筑物、水体、植被和裸地所选取的训练样本数量分别为8、6、5和5,其中建筑物中含有三个错选训练样本,水体中含有一个错选训练样本,如
图 2. 不同类型的训练样本。(a)不纯样本;(b)错选样本
Fig. 2. Different types of training samples. (a) Impure sample; (b) wrong choice sample
3.2 SVM法
目前,遥感图像的监督分类方法主要有最大似然法、最小距离分类法、马氏距离分类法和SVM法等,其中SVM法由于具有较好的分类效果而经常被采用[17]。在机器学习中,SVM法是一种有监督学习模型的算法,为此可以用于分析分类和回归分析中的数据。给定一组训练样本,每个训练样本被标记为属于两个类别中的一个或另一个,采用SVM法创建一个模型,该模型将新样本分配给两个类别中的一个,使其成为非概率二元线性分类器。SVM模型是将样本表示为空间中的点,以最大间隔来分离各个类别的样本,然后将新样本映射到相同的空间中,并根据其所处间隔的哪一侧来预测类别。
3.3 分类评价指标
遥感图像监督分类后需要对其进行精度评定,目前一般采用混淆矩阵来评价分类精度的好坏[18]。在生成混淆矩阵的基础上,通过生产者精度、用户精度、总体精度和Kappa系数等对异常训练样本剔除前后的分类结果进行评价[19-21]。
1)生产者精度指某类别被正确分类的样本数目(对角线值)与该类别真实参考样本总数(混淆矩阵中某类列的总和)的比值。
2)用户精度指某类别被正确分类的样本数目(对角线值)与被分为该类别的样本总数(混淆矩阵中某类行的总和)的比值。
3)总体精度指被正确分类的样本总数与总样本数的比值,被正确分类的样本数沿着混淆矩阵的对角线分布,总样本数等于每个类别真实参考样本总数之和,表达式为
式中:xll表示第l类别被正确分类的样本数目;L表示总样本数。
4)Kappa系数是一个用于评价遥感图像分类结果的一致性检验指标[12,22],表达式为
式中:xl+和x+l分别表示第l类别所在列和行的样本数之和。
4 实验结果与分析
4.1 不纯训练样本的结果与分析
在建筑物类别中9个训练样本的观测值分别为8439.798、10317.971、8779.719、16017.037、8629.521、8832.289、21726.055、13354.052和7827.259,可以得到相应的判定系数为0.263、0.997、0.035、4.822、0.136、0、8.654、3.035和0.675,大于2.5的训练样本为不纯训练样本。同样可以得到水体类别中7个训练样本的判定系数分别为1.319、0.674、1.285、0、0.121、0.174和59.003,表明水体类别中存在一个不纯训练样本。所探测的4个不纯训练样本与实验设计部分的不纯训练样本保持一致,具体位置如
不纯训练样本剔除前后的分类结果,如
图 3. 不纯训练样本剔除前后的分类结果。(a)剔除前;(b)剔除后
Fig. 3. Classification results before and after removal impure training samples. (a) Before removal; (b) after removal
表 1. 不纯训练样本剔除前后的分类精度
Table 1. Classification accuracy before and after removal impure training samples
|
4.2 错选训练样本的结果与分析
建筑物类别中8个训练样本的观测值为112990.212、88510.148、88608.985、90845.565、70938.949、81853.891、65344.236和87350.853,可以得到相应的判定系数分别为3.760、0.087、0.102、0.437、2.549、0.912、3.389和0.087,判定系数大于2.5的样本是建筑物类别中的异常训练样本。同样可以求得6个水体训练样本的判定系数为0.262、0.843、0.262、2.342、10.499和0.506,说明第5个训练样本为错选训练样本。
错选训练样本剔除前后的分类结果,如
图 4. 错选训练样本剔除前后的分类结果。(a)剔除前; (b)剔除后
Fig. 4. Classification results before and after ramoval of wrongly selected training samples. (a) Before removal; (b) after removal
表 2. 错选训练样本剔除前后的分类精度
Table 2. Classification accuracy before and after removal of wrongly selected training samples
|
5 结论
基于像素的遥感图像监督分类任务中,可能会遇到所选取的训练样本中存在部分异常训练样本的情况。为了解决这一问题,提出一种基于MAD的异常训练样本探测方法。采用该方法分别对不纯和错选训练样本进行探测和剔除,通过对剔除异常训练样本前后的分类结果进行比较。实验结果表明,所提方法能够准确探测遥感图像监督分类任务中训练样本不纯和错选的情况,从而有效消除异常训练样本对分类结果的影响;剔除异常训练样本后的总体精度和Kappa系数明显优于异常训练样本,分类精度提高显著,充分说明所提方法的有效性。
[1] 陈雪, 马建文, 戴芹. 基于贝叶斯网络分类的遥感影像变化检测[J]. 遥感学报, 2005, 9(6): 667-672.
Chen X, Ma J W, Dai Q. Remote sensing change detection based on Bayesian networks classifications[J]. Journal of Remote Sensing, 2005, 9(6): 667-672.
[2] Sukawattanavijit C, Chen J, Zhang H S. GA-SVM algorithm for improving land-cover classification using SAR and optical remote sensing data[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(3): 284-288.
[4] Pelletier C, Valero S, Inglada J, et al. Effect of training class label noise on classification performances for land cover mapping with satellite image time series[J]. Remote Sensing, 2017, 9(2): 173.
[5] 杨斌, 王翔. 基于深度残差去噪网络的遥感融合图像质量提升[J]. 激光与光电子学进展, 2019, 56(16): 161009.
[6] AngelovaA, Abu-MostafamY, PeronaP. Pruning training sets for learning of object categories[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), June 20-25, 2005, San Diego, CA, USA. New York: IEEE, 2005: 494- 501.
[7] Brodley C E, Friedl M A. Identifying mislabeled training data[J]. Journal of Artificial Intelligence Research, 1999, 11: 131-167.
[8] BüschenfeldT, Ostermann J. Automatic refinement of training data for classification of satellite imagery[J].ISPRS Annals of Photogrammetry, RemoteSensing and Spatial InformationSciences, 2012, I-7: 117- 122.
[9] Chellasamy M. Ferré T P A, Greve M H. An ensemble-based training data refinement for automatic crop discrimination using WorldView-2 imagery[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(10): 4882-4894.
[10] Rousseeuw P J, Hubert M. Robust statistics for outlier detection[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2011, 1(1): 73-79.
[11] Leys C, Ley C, Klein O, et al. detecting outliers: do not use standard deviation around the mean, use absolute deviation around the median[J]. Journal of Experimental Social Psychology, 2013, 49(4): 764-766.
[12] Gong X Q, Shen L, Lu T D. Refining training samples using median absolute deviation for supervised classification of remote sensing images[J]. Journal of the Indian Society of Remote Sensing, 2019, 47(4): 647-659.
[13] Koda S, Zeggada A, Melgani F, et al. Spatial and structured SVM for multilabel image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(10): 5948-5960.
[14] Hampel F R. The influence curve and its role in robust estimation[J]. Journal of the American Statistical Association, 1974, 69(346): 383-393.
[15] Huber PJ. Robust statistics[M] //Lovric M. International Encyclopedia of Statistical Science. Berlin: Springer, 2011: 1248- 1251.
[16] 裴欢, 孙天娇, 王晓妍. 基于Landsat 8 OLI影像纹理特征的面向对象土地利用/覆盖分类[J]. 农业工程学报, 2018, 34(2): 248-255.
Pei H, Sun T J, Wang X Y. Object-oriented land use/cover classification based on texture features of Landsat 8 OLI image[J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(2): 248-255.
[17] 王书涛, 吴兴, 朱文浩, 等. 平行因子结合支持向量机对多环芳烃的荧光检测[J]. 光学学报, 2019, 39(5): 0530002.
[18] Foody G M, Mathur A. The use of small training sets containing mixed pixels for accurate hard image classification: training on mixed spectral responses for classification by a SVM[J]. Remote Sensing of Environment, 2006, 103(2): 179-189.
[19] 王民, 樊潭飞, 贠卫国, 等. PFWG改进的CNN多光谱遥感图像分类[J]. 激光与光电子学进展, 2019, 56(3): 031003.
[20] Liu C R, Frazier P, Kumar L. Comparative assessment of the measures of thematic classification accuracy[J]. Remote Sensing of Environment, 2007, 107(4): 606-616.
[21] 吴波, 林珊珊, 周桂军. 面向对象的高分辨率遥感影像分割分类评价指标[J]. 地球信息科学学报, 2013, 15(4): 567-573.
Wu B, Lin S S, Zhou G J. Quantitatively evaluating indexes for object-based segmentation of high spatial resolution image[J]. Journal of Geo-Information Science, 2013, 15(4): 567-573.
[22] 杨永可, 肖鹏峰, 冯学智, 等. 大尺度土地覆盖数据集在中国及周边区域的精度评价[J]. 遥感学报, 2014, 18(2): 453-475.
Yang Y K, Xiao P F, Feng X Z, et al. Comparison and assessment of large-scale land cover datasets in China and adjacent regions[J]. Journal of Remote Sensing, 2014, 18(2): 453-475.
Article Outline
龚循强, 张方泽, 鲁铁定, 陈志高. 基于中位数绝对偏差的异常训练样本探测方法[J]. 激光与光电子学进展, 2020, 57(23): 231202. Xunqiang Gong, Fangze Zhang, Tieding Lu, Zhigao Chen. Abnormal Training Samples Detection Method Based on Median Absolute Deviation[J]. Laser & Optoelectronics Progress, 2020, 57(23): 231202.