基于机器视觉的茶小绿叶蝉识别方法研究 下载: 928次
1 引言
茶小绿叶蝉是我国茶区分布最广、危害最重的一种茶树害虫,其成虫和若虫吸取芽叶汁液,会导致茶树芽叶生长迟缓、焦边、焦叶,造成茶叶减产[1]。喷洒农药是目前茶园针对该虫害采取的主要防治手段[2],但盲目使用化学农药会造成环境污染和农药残留。因此,及时准确地做好茶小绿叶蝉预测预报和动态掌握茶园虫情是做到适时用药、掌握适合的用药浓度和用药次数的基础性工作[3]。传统的预报技术主要是在茶园中放置黄板,利用黄板诱集茶小绿叶蝉[4],通过肉眼观察黄板上茶小绿叶蝉的数量来获取虫情信息。但诱虫板上昆虫的类型和数目众多,且茶小绿叶蝉体积小,给人工视觉观察带来极大困难。
机器视觉技术具有速度快、信息量大的特点,被广泛应用于农业信息化与病虫害检测[5-8],但该技术在茶园虫害自动识别领域的研究还未见报道。本文将机器视觉技术引入到茶小绿叶蝉的自动识别领域,采用简单线性迭代聚类(SLIC)超像素分割算法并结合具有噪声的基于密度的空间聚类(DBSCAN)[9]实现诱虫板图像的分割,针对复杂环境下茶小绿叶蝉易漏分割的问题,采用多聚类图像融合方法获取目标图像,提取分割后目标图像的L、a、b(L表示照度,相当于亮度,L取值为0~100;a表示从绿色至红色的范围,a取值为 -128~+127;b表示从蓝色至黄色的范围,b取值为-128~+127)均值和标准差特征,最后利用最小二乘支持向量机(LSSVM)构建分类器对茶园中的小绿叶蝉进行识别。
茶小绿叶蝉数量和其他害虫数量不均衡导致的分类超平面偏移是影响茶小绿叶蝉识别精度的最主要原因[10]。本文利用改进的合成少数类过采样技术(SMOTE)方法生成少数茶小绿叶蝉类样本,并利用Kennard-Stone(KS)算法对多数类样本(其他昆虫)进行筛选,以减少多数类样本之间的冗余信息,缩减训练样本中正、负样本之间的数量差异。实验结果表明,改进后的方法明显提高了茶小绿叶蝉的识别率,为分析不同时期茶小绿叶蝉的识别数量和预测虫害的实际程度提供理论依据。
2 材料与方法
2.1 图像获取
本研究所用图片均是采用Nikond Digital D5200彩色照相机(分辨率为4000 pixel×3000 pixel)在江苏省无锡市茶叶研究所管理的茶园中于自然环境下拍摄的。将黄板放置在茶园的不同区域,在虫害高发期(2016年6月21—27日)每两天拍摄一次。为获取清晰的图像,消除运动模糊的干扰,拍摄时将黄板固定,以减少抖动;拍摄角度多样,拍摄距离范围为10~50 cm。部分实验图片如
2.2 基于SLIC超像素分割和多DBSCAN聚类图像融合的分割方法
超像素方法对颜色渐变区域能准确地检测到边缘,并且对处理随机不确定场景图像具有很强的稳键性[11-14]。SLIC算法相比其他超像素分割算法具有边缘贴合度高、数量可控的优点[15]。因此本研究使用SLIC算法对实验图片进行初分割,将背景和不同种类的害虫准确分离,再使用DBSCAN聚类算法[16]进行二次聚类。但聚类时阈值过小将导致聚类后的图像包含过多的背景信息,阈值过大则会使一些茶小绿叶蝉聚类成为背景而导致漏分割。因此本研究融合了阈值在两种不同取值下的聚类结果,保证了分割的准确性和完整性,从而得到去除背景后的目标图像。算法的具体实现过程如下:
1) 初始化聚类中心。假设图像有N个像素点,预先设定分割出K个超像素。设间距S=N/K,选择K个初始种子(像素点)。为了将害虫之间相互分离,应尽可能地减少计算时间,这里设置K为500。
2) 相似性度量。在颜色空间(CIELAB)提取N个像素点,并在X-Y坐标系中提取五维特征向量ci=(li,ai,bi,xi,yi)。对五维特征向量构造相似性度量,定义如下:
式中m∈[1,20]为平衡参数,是平衡颜色值与空间信息在相似度度量中的比重,本研究中m的值设置为10;dlab、dxy为像素点之间的色差和空间距离;d(i,k)为第i个像素点与第k个聚类中心之间的相似度;li、ai、bi分别为Lab空间中第i个像素点的L分量、a分量、b分量;lk、ak、bk分别为Lab空间中第k个聚类中心的L分量、a分量、b分量;xi、yi分别为第i个像素点在X-Y坐标系上的坐标值;xk、yk分别为第k个聚类中心在X-Y坐标系上的坐标值。
3) 更迭聚类中心。假定在X-Y平面上聚类中心的关联像素点位于其2S×2S区域内,则所有像素点被关联到最近的聚类中心后,新聚类中心更改为同类别中所有像素点五维向量的平均值。重复此过程,直到收敛,停止迭代。将聚类中心标签赋给像素点,形成K个超像素。
4) DBSCAN聚类。如果两个超像素之间相连,就根据(2)式计算两者之间的颜色距离dlab。当dlab小于阈值时,将两个超像素聚为一类并更新像素点的类别标签。通过试验可知:当阈值设置为8时,可以得到较完整的目标图像I1;当阈值设置为12时,可以去除掉绝大多数背景,得到较为准确的目标图像I2。
5) 多聚类图像融合。对I1中的所有连通域进行检测得到标记后的子区域,遍历I1中所有的子区域Ai,若子区域与I2没有相交的部分,则将该子区域添加到I2中,即I1=[A1,A2,…,Ai,…,An](n为I1中连通域的个数),如果Ai∩I2=⌀,则I2=Ai+I2。重复此过程,就得到融合后的目标图像。该目标图像去除了背景信息,仅包含含虫区域的信息。
2.3 特征提取
茶小绿叶蝉具有不同的大小和形状,在黄板上的形态各异,并会与一些昆虫彼此重叠,因此难以通过形状特征来识别它们。通过观察发现,茶小绿叶蝉身体的颜色主要呈现为绿色,但颜色的深浅会随着生长阶段和光照的强弱而发生变化。Lab颜色空间可以准确描述颜色深浅以及亮度的变化,体现色相间的差异。李冠林等[17]利用a、b层二维数据空间的颜色差异,综合运用K_means聚类和图像形态学方法对葡萄病害彩色图像实现了较准确的分割。因此本研究将分别提取目标图像中各子区域所有像素点的L、a、b均值及其对应标准差(σL、σa、σb)用于茶小绿叶蝉的识别。
图 2. 茶小绿叶蝉区域和其他害虫区域的特征值盒图
Fig. 2. Box-plot of color features for Empoasca flavescens and other insects
2.4 基于改进的SMOTE算法和KS算法相结合的茶小绿叶蝉识别
支持向量机是模式识别和机器学习的一种重要的分类方法[18]。LSSVM将求解二次规划问题转化为求解线性方程组问题,提高了求解问题的速度和收敛精确度[19],是支持向量机的一种改进。本研究利用LSSVM算法,将目标图片中各子区域的六个特征值(L、a、b、σL、σa、σb)作为输入向量建立分类模型对茶小绿叶蝉进行识别,核函数为径向基函数。该算法包括两个主要参数,即c和σ,前者是正则化参数,后者表示核函数的径向宽度,使用十折交叉验证法对这两个参数进行优化。
在目标图像中,茶小绿叶蝉的样本个数较少,而其他昆虫的样本个数较多,使得分类超平面向少数类样本偏移,并最终导致对茶小绿叶蝉的识别精度较低。为了解决分类问题中数据不均衡的问题,基于样本均衡化思想的SMOTE被广泛运用,以提高不均衡样本条件下分类器的分类精度[20-21]。
传统的SMOTE算法是利用全体少数类样本进行样本生成的,并最终达到样本均衡。由于最终决定分类结果的是分类面附近的少量样本,因此SMOTE的合成机制会产生部分冗余样本,存在不合理的地方。衣柏衡等[22]利用SMOTE算法对原始分类器的错分样本进行生成,克服了传统算法盲目生成少数类样本的缺陷。本研究采用该方法对错分样本进行人工生成。与此同时,为了减少多数类样本的冗余性,引入KS算法来选择具有代表性的多数类样本,以改善不同类别样本的均衡性[23],具体算法设计如下:
1) 设原始训练集T={Tp,Tn},其中Tp为正类样本集且Tp={(x1,1),(x2,1),…,(xm,1)},Tn为负类样本集且Tn={(xm+1,-1),(xm+2,-1),…,(xt,-1)}。
2) 用LSSVM对T进行分类,并用原始数据T对模型进行验证,将错分样本加入集合Pmis中。
3) 判断Pmis是否为空集。若是,结束算法;若不是,令集合S=T,PMIS=Pmis,进入下一步。
4) 用SMOTE算法通过表达式xnew=xi+rand(0,1)×(xi-xj)对PMIS中每个样本人工合成一次,将合成的新样本xnew添加到集合S中。其中,xi为PMIS中的样本,xj为从xi的k个近邻同类样本中随机选取的一个样本,rand(0,1)表示取0~1之间的随机数。
5) 用LSSVM模型对S进行分类,并用原始数据T对模型进行验证,找出所有的错分样本,更新集合Pmis,且PMIS=
6) 重复4)和5),直到集合Pmis不再产生新的错分样本或Pmis为空集。
7) 以样本间的欧氏距离为基础,利用KS算法将选择的样本与剩余样本之间的欧氏距离最大化,筛选出分布范围广泛且代表性强的样本。从Tn中选出具有代表性的样本Tn1,与Tp、PMIS构成新的训练集T1,即T1={Tn1,Tp,PMIS}。
8) 使用LSSVM对新的训练集T1进行建模。
总体算法流程如
2.5 精确度测量标准
对于均衡的数据集,通常将整体分类误差作为模型性能的评估指标。但对于非均衡数据集,整体误差难以反映分类器在少数类样本中的表现。为了评价分类器对非均衡数据集的分类效果,引入少数类样本查全率TPR、多数类样本查全率TNR、少数类样本查准率Precision、综合G-mean、少数类样本F-measure[22]以及整体识别精度Percent_test来多角度评价分类性能,这些指标的值越大,分类效果越优。
3 结果与讨论
3.1 所提分割算法与其他分割算法的比较
图 4. 不同算法的分割结果。(a)原图;(b)传统Ostu 算法;(c) K_means聚类算法
Fig. 4. Segmentation results using different algorithms. (a) Original image; (b) traditional Ostu algorithm; (c) K_means clustering algorithm
图 5. DBSCAN聚类结果。(a)阈值取8;(b)阈值取12;(c)多聚类融合图像
Fig. 5. DBSCAN clustering results. (a) Setting threshold to 8; (b) setting threshold to 12; (c) clustering fusion result
表 1. 不同算法分割出的茶小绿叶蝉个数
Table 1. Number of Empoasca flavescens separated by different algorithms
|
3.2 茶小绿叶蝉识别效果的评价
为验证所提方法的有效性,对不同天气和不同光照强度下拍摄的151幅图像进行试验。从这151幅图中分割出的目标图像中提取了200个茶小绿叶蝉以及3000个其他类害虫,并从中各随机抽取1/2(茶小绿叶蝉100个,其他类害虫1500个)作为训练样本,剩余的作为测试样本。用LSSVM对训练样本进行训练,将训练好的模型对茶小绿叶蝉进行识别能力检测,随机抽取不同的训练样本和测试样本共10次,分别建立识别模型,得到测试样本的平均识别结果如
因此,使用改进的SMOTE算法对错分样本进行4倍生成,以提高关键性样本(分类超平面附近样本)的识别精度。从
为解决TNR和Precision这两个指标下降的问题,在改进SMOTE算法的基础上,利用KS算法选取具有代表性的多数类样本来减少样本之间的冗余信息以及缩小与少数类之间的数量差异。从
表 2. 不同训练方法得到的测试精度
Table 2. The test accuracy obtained by different training methods%
|
随机选择不同个数的多数类样本时各精度指标的变化如
图 6. 不同算法精度与选择样本个数的关系。(a) KS算法;(b)随机选择
Fig. 6. Accuracy versus number of selecting samples for different algorithms. (a) KS algorithm; (b) random selection
茶小绿叶蝉在不同天气和光强下的部分识别结果如
4 结论
用机器视觉的方法实现了茶园开放环境下黄板上茶小绿叶蝉的识别。由于光照条件和背景具有不确定性,阈值分割的方法并不能达到理想的分割效果。在超像素分割的基础上引入多聚类图像融合的
图 7. 部分识别结果。(a)正确识别;(b)错误识别;(c)漏识别
Fig. 7. Partial recognition results. (a) Correct recognition; (b) misrecognition; (c) leakage recognition
分割算法可有效解决复杂环境下茶小绿叶蝉被漏分割的问题,同时保证了目标图像分割的准确性。在用LSSVM进行识别时,针对茶小绿叶蝉和其他害虫数量不均衡的问题,采用改进SMOTE算法和KS算法相结合的方法提高了茶小绿叶蝉的识别准确率,整体精度为99.30%,茶小绿叶蝉的查准率为91.76%。但是该识别方法也存在少量错误识别和漏识别的情况,因此寻找稳健性更高的特征以提高茶园中茶小绿叶蝉的识别精度将是下一步研究的内容。
[1] 彭林, 孙晓琳, 陈宗懋, 等. 茶树主要病虫害防治手册[M]. 杭州: 国家产业技术体系病虫害功能研究室, 2009: 5- 6.
[2] 吴亮宇, 金珊, 吴命燕, 等. 茶树假眼小绿叶蝉防治技术的研究进展[J]. 贵州农业科学, 2014, 42(3): 64-68.
[3] 王庆森, 王定锋, 吴光远. 我国茶树假眼小绿叶蝉研究进展[J]. 福建农业学报, 2013, 28(6): 615-623.
[4] 姚雍静, 王家伦, 何莲, 等. 黄色诱虫板对茶小绿叶蝉的诱捕效果研究[J]. 茶叶, 2010, 36(2): 90-92.
[5] 路志英, 刘书辰. 基于多特征融合的玉米前期图像旱情识别[J]. 激光与光电子学进展, 2017, 54(8): 081005.
[6] 许良凤, 徐小兵, 胡敏, 等. 基于多分类器融合的玉米叶部病害识别[J]. 农业工程学报, 2015, 31(14): 194-201.
Xu L F, Xu X B, Hu M, et al. Corn leaf disease identification based on multiple classifiers fusion[J]. Transactions of the Chinese Society of Agricultural Engineering, 2015, 31(14): 194-201.
[7] 倪军, 姚霞, 田永超, 等. 便携式作物生长监测诊断仪的设计与试验[J]. 农业工程学报, 2013, 29(6): 150-156.
Ni J, Yao X, Tian Y C, et al. Design and experiments of portable apparatus for plant growth monitoring and diagnosis[J]. Transactions of the Chinese Society of Agricultural Engineering, 2013, 29(6): 150-156.
[8] 曹乐平. 基于机器视觉的植物病虫害实时识别方法[J]. 中国农学通报, 2015, 31(20): 244-249.
[9] 凌朝东, 陈虎, 杨骁, 等. 结合SLIC超像素和DBSCAN聚类的眼底图像硬性渗出检测方法[J]. 华侨大学学报, 2015, 36(4): 399-405.
[12] 牟丽, 张学武, 张卓, 等. 自然场景下的显著性检测优化方法[J]. 激光与光电子学进展, 2016, 53(12): 121501.
[14] 周俊, 朱金荣, 王明军. 基于条件随机场的梨园场景图像分割方法[J]. 农业机械学报, 2015, 46(2): 8-13.
[16] 周水庚, 周傲英, 金文, 等. 一种快速DBSCAN算法[J]. 软件学报, 2000, 11(6): 735-744.
Zhou S G, Zhou A Y, Jin W, et al. A fast DBSCAN algorithm[J]. Journal of Software, 2000, 11(6): 735-744.
[17] 李冠林, 马占鸿, 黄冲, 等. 基于K_means硬聚类算法的葡萄病害彩色图像分割方法[J]. 农业工程学报, 2010, 26(14): 32-37.
[18] VapnikV. Statistical learning theory[M]. New York: Wiley, 1998.
[20] 孙涛, 吴海丰, 梁志刚, 等. SMOTE算法在不平衡数据中的应用[J]. 北京生物医学工程, 2012, 31(5): 528-530.
[21] 郑文昌, 陈淑燕, 王宣强. 面向不平衡数据集的SMOTE-SVM交通事件检测算法[J]. 武汉理工大学学报, 2012, 34(11): 58-62.
[22] 衣柏衡, 朱建军, 李杰. 基于改进SMOTE的小额贷款公司客户信用风险非均衡SVM分类[J]. 中国管理科学, 2016, 24(3): 24-30.
Yi B H, Zhu J J, Li J. Imbalanced data classification on micro-credit company customer credit risk assessment using improved SMOTE support vector machine[J]. Chinese Journal of Management Science, 2016, 24(3): 24-30.
[23] 张晓东. 基于KS抽样的k-medoids聚类初始中心选取法[J]. 内蒙古工业大学学报, 2016, 35(4): 297-302.
Article Outline
陈晶, 朱启兵, 黄敏, 郑阳. 基于机器视觉的茶小绿叶蝉识别方法研究[J]. 激光与光电子学进展, 2018, 55(1): 011502. Chen Jing, Zhu Qibing, Huang Min, Zheng Yang. Recognition of Empoasca Flavescens Based on Machine Vision[J]. Laser & Optoelectronics Progress, 2018, 55(1): 011502.