激光与光电子学进展, 2020, 57 (23): 231202, 网络出版: 2020-12-08  

基于中位数绝对偏差的异常训练样本探测方法 下载: 733次

Abnormal Training Samples Detection Method Based on Median Absolute Deviation
作者单位
1 东华理工大学放射性地质与勘探技术国防重点学科实验室, 江西 南昌 330013
2 东华理工大学测绘工程学院, 江西 南昌 330013
摘要
遥感图像的监督分类技术在信息提取和变化检测领域中具有广泛的应用,其中训练样本的选择至关重要,训练样本的好坏直接决定分类精度的高低。然而,受到条件的限制和人为的错误均可能导致一些不纯或错选的异常训练样本被选取,从而造成分类精度的降低。为了解决这个问题,采用中位数绝对偏差法,根据图像的光谱信息探测和剔除遥感图像监督分类任务中不纯和错选的训练样本。选取由Landsat-8获取南昌市部分地区的光学遥感图像数据,使用支持向量机对含有异常训练样本和剔除异常训练样本的两种情况进行监督分类,并对分类结果进行比较。实验结果表明,剔除异常训练样本的分类精度明显优于含异常训练样本。
Abstract
The supervised classification technology of remote sensing images is widely used in the field of information extraction and change detection, in which the selection of training samples is very important, and the quality of training samples directly determines the accuracy of classification. However, due to the limitation of conditions and human error, some impure or wrong training samples may be selected, resulting in a decrease in classification accuracy. In order to solve this problem, the median absolute deviation method is used to detect and eliminate impure and wrong training samples in the supervised classification of remote sensing images based on the spectral information of the image. The optical remote sensing image data obtained from Landsat-8 in some areas of Nanchang city is selected, the support vector machine is used to supervise and classify the two situations that contain abnormal training samples and eliminate abnormal training samples, and compare the classification results. Experimental results show that the classification accuracy of removing abnormal training samples is significantly better than that of abnormal training samples.

1 引言

遥感图像分类是遥感数字图像处理的一个重要内容,其广泛应用于土地利用或覆盖、树种识别、植被区分和变化检测等领域[1-2]。对于大多数遥感图像分类任务来说,在监督分类过程中施加额外的先验信息,所以其分类精度通常优于非监督分类。典型的监督学习框架可以提供一定数量的训练样本用于训练分类器,然后使用训练得到的分类器将目标图像分为不同的类别。因此,监督分类精度的高低在很大程度上取决于训练样本质量的好坏[3-5]

然而,由于受到条件限制以及人为错误,用于训练分类器的训练样本经常会被污染,被污染的异常训练样本通常分为训练样本不纯和训练样本错选两种情况。当训练样本不纯时,其光谱值的标准差不同于同一地物类别的其他训练样本。当选取某种地物类别的训练样本时,若错误地将其他地物类别的训练样本归为该地物类别,其光谱值的均值往往不同于该地物类别的其他训练样本。针对训练样本中含有异常值的问题,相关学者已经提出了许多方法。一种常见的处理策略是设计不受异常训练样本影响的复杂模型,比如集成了几种分类器优点的集成学习方法,该方法对异常训练样本具有鲁棒性[3,6]。尽管采用集成学习方法能够获得较好的结果,但是大多数现有的集成学习方法仅在训练样本中含有少量的异常训练样本才有效果。另一种处理策略是先识别和剔除异常训练样本,然后使用提纯的训练样本来训练分类器,进而得到更精确的分类结果[7-9],但是当探测和剔除异常训练样本时,均需要大量训练样本的支撑。

为了解决少量训练样本中可能存在异常训练样本的问题,本文采用异常值探测能力强和计算效率高的中位数绝对偏差(MAD)法[10-12]探测和剔除异常训练样本,使用常用的支持向量机(SVM)分类器[13]对遥感图像进行分类,通过与异常训练样本分类结果进行比较,验证MAD法对提高分类精度具有可行性。

2 实验方法

MAD法是所提方法的基础,在介绍实验方法前有必要对该方法进行简单介绍。

2.1 MAD法

给定n个观测值{x1,x2,…,xn}来计算样本中位数,表达式为

M=mediani=1,,n(xi)(1)

当n是奇数时,则中位数取排序为中间的观测值;当n是偶数时,则中位数取排序为n/2和n/2+1的观测值的平均值。

在中位数的基础上发展而来的MAD法是由Hampel等[14-15]提出的,表达式为

MMAD=b×mediani=1,,nxi-medianj=1,,n(xj),(2)

式中:b表示常数,通常b=1.4826;j表示第二层循环序号。

为了对观测数据中的异常值进行探测,需要计算每个观测值xi的判定系数D,表达式为

D=xi-medianj=1,,n(xj)MMAD(3)

D值大于给定的阈值时,则认定xi为异常数据。根据大量的科学实验和工程实践结果,选择阈值为2.5较为合理[11]。MAD法能够探测高达50%的异常数据,所以其具有较强的探测效果。由于MAD法具有异常值探测能力强、计算简单和计算效率高等优点,因此实验采用MAD法来探测训练样本中可能存在的异常训练样本。

2.2 基于MAD的异常训练样本探测方法

在遥感图像的监督分类过程中,如果一个地物类别的训练样本包含属于其他地物类别的像元,那么不纯训练样本的标准差明显不同于该地物类别中的其他训练样本。同理,当选择某一地物类别的训练样本时,若错误地将其他地物类别的训练样本归为该地物类别,其均值则不同于该地物类别中的其他训练样本。根据这一特点,采用MAD法来探测地物类别中的不纯(或错选)训练样本。

假设为特定的类别创建t个训练样本,并且需要分类的遥感图像中有d个波段。采用MAD法来探测异常训练样本的过程如下。

1)对于第o个训练样本,分别计算该训练样本中每个波段的标准差s或均值a2)Ss所有波段的标准差总和,Aa所有波段的均值总和,S=k=1dskA=k=1dak,即构成新的观测值。3)对于t个训练样本,可以获得n个观测值,即观测值为{x1,x2,,xn}4)利用(1)~(3)式来探测训练样本中的异常值。

对于其他地物类别,可以重复以上异常值探测步骤。

3 实验设计

为了验证所提方法的有效性,有必要设计合理的实验对所提方法的有效性进行评估。为了模拟异常训练样本,可在一个或多个地物类别中人为地选择一些不纯或错选的训练样本,从而验证所提方法探测异常训练样本的效果。需要指出的是,目前评价训练样本可分离性的指标是计算地物类别之间的Jeffries-Matusita距离,其取值范围为[0,2],并认为该数值大于1.9为合格[16]。然而,当数值大于1.9时,仍然可能存在不纯或错选的训练样本。为了验证这一问题,实验中所选训练样本的可分离性指标均大于1.9。下面分别介绍实验数据和分类评价指标。

3.1 实验数据

实验采集的时间为2017年9月14日,实验数据是由Landsat-8获取南昌市部分地区的光学遥感图像。通过图像融合可以获取空间分辨率为15 m的多光谱图像,选取的图像尺寸为1000 pixel×1000 pixel,即15 km×15 km作为实验区域,其中包含建筑物、水体、植被和裸地4种地物类型。为了合理地对实验结果进行比较,所有验证样本都是固定不变的,验证样本如图1所示。设计的训练样本如下。

图 1. 验证样本

Fig. 1. Verified sample

下载图片 查看所有图片

1)建筑物、水体、植被和裸地所选取的训练样本数量分别为9、7、6和6,其中建筑物中含有三个不纯训练样本,水体中含有一个不纯训练样本,如图2(a)所示。

2)建筑物、水体、植被和裸地所选取的训练样本数量分别为8、6、5和5,其中建筑物中含有三个错选训练样本,水体中含有一个错选训练样本,如图2(b)所示。

图 2. 不同类型的训练样本。(a)不纯样本;(b)错选样本

Fig. 2. Different types of training samples. (a) Impure sample; (b) wrong choice sample

下载图片 查看所有图片

3.2 SVM法

目前,遥感图像的监督分类方法主要有最大似然法、最小距离分类法、马氏距离分类法和SVM法等,其中SVM法由于具有较好的分类效果而经常被采用[17]。在机器学习中,SVM法是一种有监督学习模型的算法,为此可以用于分析分类和回归分析中的数据。给定一组训练样本,每个训练样本被标记为属于两个类别中的一个或另一个,采用SVM法创建一个模型,该模型将新样本分配给两个类别中的一个,使其成为非概率二元线性分类器。SVM模型是将样本表示为空间中的点,以最大间隔来分离各个类别的样本,然后将新样本映射到相同的空间中,并根据其所处间隔的哪一侧来预测类别。

3.3 分类评价指标

遥感图像监督分类后需要对其进行精度评定,目前一般采用混淆矩阵来评价分类精度的好坏[18]。在生成混淆矩阵的基础上,通过生产者精度、用户精度、总体精度和Kappa系数等对异常训练样本剔除前后的分类结果进行评价[19-21]

1)生产者精度指某类别被正确分类的样本数目(对角线值)与该类别真实参考样本总数(混淆矩阵中某类列的总和)的比值。

2)用户精度指某类别被正确分类的样本数目(对角线值)与被分为该类别的样本总数(混淆矩阵中某类行的总和)的比值。

3)总体精度指被正确分类的样本总数与总样本数的比值,被正确分类的样本数沿着混淆矩阵的对角线分布,总样本数等于每个类别真实参考样本总数之和,表达式为

P0=1Ll=1Lxll,(4)

式中:xll表示第l类别被正确分类的样本数目;L表示总样本数。

4)Kappa系数是一个用于评价遥感图像分类结果的一致性检验指标[12,22],表达式为

K=Ll=1Lxll-l=1L(xl+×x+l)L2-l=1L(xl+×x+l),(5)

式中:xl+x+l分别表示第l类别所在列和行的样本数之和。

4 实验结果与分析

4.1 不纯训练样本的结果与分析

在建筑物类别中9个训练样本的观测值分别为8439.798、10317.971、8779.719、16017.037、8629.521、8832.289、21726.055、13354.052和7827.259,可以得到相应的判定系数为0.263、0.997、0.035、4.822、0.136、0、8.654、3.035和0.675,大于2.5的训练样本为不纯训练样本。同样可以得到水体类别中7个训练样本的判定系数分别为1.319、0.674、1.285、0、0.121、0.174和59.003,表明水体类别中存在一个不纯训练样本。所探测的4个不纯训练样本与实验设计部分的不纯训练样本保持一致,具体位置如图2(a)所示。

不纯训练样本剔除前后的分类结果,如图3(a)所示。从图3(a)可以看到,由于建筑物样本中存在大量的不纯训练样本,从而造成其他地物类别的大量像素被错分成建筑物。同时,在部分建筑物周围的很多植被均被错分成水体,这是由于在水体样本中存在一个含有植被像素的不纯训练样本,剔除不纯训练样本后的分类结果则较为准确,如图3(b)所示。相应的分类精度如表1所示。从表1可以看到,当训练样本中存在不纯训练样本时,植被、水体和裸地的生产者精度分别为68.037%、71.030%和81.883%,明显低于剔除不纯训练样本后的生产者精度95.658%、99.807%和98.573%;建筑物、水体和裸地的用户精度分别从64.125%、84.295%和86.316%提高到94.571%、97.097%和99.711%;剔除所有不纯训练样本的总体精度和Kappa系数分别为97.639%和0.968,明显高于不纯训练样本的总体精度79.562%和Kappa系数0.726,分别提高18.077个百分点和0.242。

图 3. 不纯训练样本剔除前后的分类结果。(a)剔除前;(b)剔除后

Fig. 3. Classification results before and after removal impure training samples. (a) Before removal; (b) after removal

下载图片 查看所有图片

表 1. 不纯训练样本剔除前后的分类精度

Table 1. Classification accuracy before and after removal impure training samples

ClassBefore removalAfter removal
Producer/%User/%Producer/%User/%
Building99.49464.12596.86694.571
Vegetation68.037100.00095.65899.807
Water71.03084.29599.80797.097
Bare ground81.88386.31698.57399.711

查看所有表

4.2 错选训练样本的结果与分析

建筑物类别中8个训练样本的观测值为112990.212、88510.148、88608.985、90845.565、70938.949、81853.891、65344.236和87350.853,可以得到相应的判定系数分别为3.760、0.087、0.102、0.437、2.549、0.912、3.389和0.087,判定系数大于2.5的样本是建筑物类别中的异常训练样本。同样可以求得6个水体训练样本的判定系数为0.262、0.843、0.262、2.342、10.499和0.506,说明第5个训练样本为错选训练样本。

错选训练样本剔除前后的分类结果,如图4所示。从图4可以看到,由于在水体样本中存在一个将植被错选为水体的训练样本,从而造成部分植被被错分成水体,而剔除单个错选训练样本后的分类结果则不存在这一情况。此外,图4(a)中有大量的植被、水体和裸地被错分成建筑物,这是由于在建筑物样本中存在含有植被、水体和裸地像素的错选训练样本,而图4(b)的分类结果则较好。相应的分类精度如表2所示。从表2可以看到,当训练样本中存在错选训练样本时,建筑物、植被、水体和裸地的生产者精度为94.439%、79.676%、79.788%和67.475%,明显低于剔除所有错选训练样本的97.573%、99.307%、100.000%和98.288%;建筑物和水体的用户精度分别从62.329%和85.508%提高到98.469%和98.674%;含有错选训练样本的总体精度和Kappa系数分别为81.294%和0.748,而剔除所有错选训练样本的总体精度和Kappa系数分别为98.859%和0.985,剔除所有错选训练样本的总体精度和Kappa系数较剔除前分别提高17.565个百分点和0.237。

图 4. 错选训练样本剔除前后的分类结果。(a)剔除前; (b)剔除后

Fig. 4. Classification results before and after ramoval of wrongly selected training samples. (a) Before removal; (b) after removal

下载图片 查看所有图片

表 2. 错选训练样本剔除前后的分类精度

Table 2. Classification accuracy before and after removal of wrongly selected training samples

ClassBefore removalAfter removal
Producer/%User/%Producer/%User/%
Building94.43962.32997.57398.469
Vegetation79.67699.88499.30799.583
Water79.78885.508100.00098.674
Bare ground67.47598.54298.28898.569

查看所有表

5 结论

基于像素的遥感图像监督分类任务中,可能会遇到所选取的训练样本中存在部分异常训练样本的情况。为了解决这一问题,提出一种基于MAD的异常训练样本探测方法。采用该方法分别对不纯和错选训练样本进行探测和剔除,通过对剔除异常训练样本前后的分类结果进行比较。实验结果表明,所提方法能够准确探测遥感图像监督分类任务中训练样本不纯和错选的情况,从而有效消除异常训练样本对分类结果的影响;剔除异常训练样本后的总体精度和Kappa系数明显优于异常训练样本,分类精度提高显著,充分说明所提方法的有效性。

参考文献

[1] 陈雪, 马建文, 戴芹. 基于贝叶斯网络分类的遥感影像变化检测[J]. 遥感学报, 2005, 9(6): 667-672.

    Chen X, Ma J W, Dai Q. Remote sensing change detection based on Bayesian networks classifications[J]. Journal of Remote Sensing, 2005, 9(6): 667-672.

[2] Sukawattanavijit C, Chen J, Zhang H S. GA-SVM algorithm for improving land-cover classification using SAR and optical remote sensing data[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(3): 284-288.

[3] Frenay B, Verleysen M. Classification in the presence of label noise: a survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(5): 845-869.

[4] Pelletier C, Valero S, Inglada J, et al. Effect of training class label noise on classification performances for land cover mapping with satellite image time series[J]. Remote Sensing, 2017, 9(2): 173.

[5] 杨斌, 王翔. 基于深度残差去噪网络的遥感融合图像质量提升[J]. 激光与光电子学进展, 2019, 56(16): 161009.

    Yang B, Wang X. Boosting quality of pansharpened images using deep residual denoising network[J]. Laser & Optoelectronics Progress, 2019, 56(16): 161009.

[6] AngelovaA, Abu-MostafamY, PeronaP. Pruning training sets for learning of object categories[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), June 20-25, 2005, San Diego, CA, USA. New York: IEEE, 2005: 494- 501.

[7] Brodley C E, Friedl M A. Identifying mislabeled training data[J]. Journal of Artificial Intelligence Research, 1999, 11: 131-167.

[8] BüschenfeldT, Ostermann J. Automatic refinement of training data for classification of satellite imagery[J].ISPRS Annals of Photogrammetry, RemoteSensing and Spatial InformationSciences, 2012, I-7: 117- 122.

[9] Chellasamy M. Ferré T P A, Greve M H. An ensemble-based training data refinement for automatic crop discrimination using WorldView-2 imagery[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(10): 4882-4894.

[10] Rousseeuw P J, Hubert M. Robust statistics for outlier detection[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2011, 1(1): 73-79.

[11] Leys C, Ley C, Klein O, et al. detecting outliers: do not use standard deviation around the mean, use absolute deviation around the median[J]. Journal of Experimental Social Psychology, 2013, 49(4): 764-766.

[12] Gong X Q, Shen L, Lu T D. Refining training samples using median absolute deviation for supervised classification of remote sensing images[J]. Journal of the Indian Society of Remote Sensing, 2019, 47(4): 647-659.

[13] Koda S, Zeggada A, Melgani F, et al. Spatial and structured SVM for multilabel image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(10): 5948-5960.

[14] Hampel F R. The influence curve and its role in robust estimation[J]. Journal of the American Statistical Association, 1974, 69(346): 383-393.

[15] Huber PJ. Robust statistics[M] //Lovric M. International Encyclopedia of Statistical Science. Berlin: Springer, 2011: 1248- 1251.

[16] 裴欢, 孙天娇, 王晓妍. 基于Landsat 8 OLI影像纹理特征的面向对象土地利用/覆盖分类[J]. 农业工程学报, 2018, 34(2): 248-255.

    Pei H, Sun T J, Wang X Y. Object-oriented land use/cover classification based on texture features of Landsat 8 OLI image[J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(2): 248-255.

[17] 王书涛, 吴兴, 朱文浩, 等. 平行因子结合支持向量机对多环芳烃的荧光检测[J]. 光学学报, 2019, 39(5): 0530002.

    Wang S T, Wu X, Zhu W H, et al. Fluorescence detection of polycyclic aromatic hydrocarbons by parallel factor combined with support vector machine[J]. Acta Optica Sinica, 2019, 39(5): 0530002.

[18] Foody G M, Mathur A. The use of small training sets containing mixed pixels for accurate hard image classification: training on mixed spectral responses for classification by a SVM[J]. Remote Sensing of Environment, 2006, 103(2): 179-189.

[19] 王民, 樊潭飞, 贠卫国, 等. PFWG改进的CNN多光谱遥感图像分类[J]. 激光与光电子学进展, 2019, 56(3): 031003.

    Wang M, Fan T F, Yun W G, et al. PFWG improved CNN multispectral remote sensing image classification[J]. Laser & Optoelectronics Progress, 2019, 56(3): 031003.

[20] Liu C R, Frazier P, Kumar L. Comparative assessment of the measures of thematic classification accuracy[J]. Remote Sensing of Environment, 2007, 107(4): 606-616.

[21] 吴波, 林珊珊, 周桂军. 面向对象的高分辨率遥感影像分割分类评价指标[J]. 地球信息科学学报, 2013, 15(4): 567-573.

    Wu B, Lin S S, Zhou G J. Quantitatively evaluating indexes for object-based segmentation of high spatial resolution image[J]. Journal of Geo-Information Science, 2013, 15(4): 567-573.

[22] 杨永可, 肖鹏峰, 冯学智, 等. 大尺度土地覆盖数据集在中国及周边区域的精度评价[J]. 遥感学报, 2014, 18(2): 453-475.

    Yang Y K, Xiao P F, Feng X Z, et al. Comparison and assessment of large-scale land cover datasets in China and adjacent regions[J]. Journal of Remote Sensing, 2014, 18(2): 453-475.

龚循强, 张方泽, 鲁铁定, 陈志高. 基于中位数绝对偏差的异常训练样本探测方法[J]. 激光与光电子学进展, 2020, 57(23): 231202. Xunqiang Gong, Fangze Zhang, Tieding Lu, Zhigao Chen. Abnormal Training Samples Detection Method Based on Median Absolute Deviation[J]. Laser & Optoelectronics Progress, 2020, 57(23): 231202.

引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!