作者单位
摘要
1 北京语言大学信息科学学院, 北京 100083
2 中国科学院新疆天文台, 新疆 乌鲁木齐 830011
随着观测设备的不断完善, 人们获得的光谱数量持续上升, 如何进一步提高光谱自动分类的性能引起广泛关注。 为此, 以恒星光谱为研究对象, 在近年来新出现的BERT和CNN等深度学习模型的基础上, 试图融合了BERT模型和CNN模型在特征提取和智能分类方面的优势, 提出高性能混合深度学习网络BERT-CNN, 用以探讨该模型在提升光谱分类性能方面的有效性。 该模型首先将恒星光谱数据输入BERT模型; 然后, 利用BERT模型中的Transformer进行特征提取, 得到特征向量; 最后, 将特征向量输入CNN模型, 通过softmax分类器获得分类结果。 该实验的编程语言为Python3.7, 引入TensorFlow1.14作为深度学习模型框架, 并以SDSS DR10中的K型、 F型、 G型的恒星光谱数据作为实验数据集。 使用min-max方法对恒星光谱数据做归一化处理, 通过与SVM、 CNN等分类模型的比较来验证BERT-CNN混合模型在恒星光谱分类中的有效性。 引入网格搜索和10折交叉验证来获得模型的实验参数。 实验包括两部分: 一是利用精准率P、 召回率R、 调和平均值F1等指标对BERT-CNN模型的恒星光谱分类性能进行评价。 当训练数据集占比实验数据集的30%~70%时, BERT-CNN模型处理K, F和G型恒星光谱数据集的精准率P、 召回率R、 调和平均值F1随训练样本数的增加而提升。 在相同规模的训练样本条件下, BERT-CNN模型在K型恒星光谱数据集上的P, RF1值均最高, 其次是G型恒星光谱数据集, F型恒星光谱数据集上的分类效果较差。 二是利用准确率对SVM, CNN和BERT-CNN等模型的对比实验结果进行评价。 对K, F和G型恒星光谱数据集上, BERT-CNN模型分类效果最优, 其次是CNN模型, SVM模型分类效果较差。 表明, BERT-CNN模型有助于提升光谱分类性能。
光谱分类 深度学习网络 BERT模型 CNN模型 Spectra classification Deep learning network BERT model CNN model 
光谱学与光谱分析
2022, 42(3): 699
作者单位
摘要
1 攀枝花学院数学与计算机学院, 四川 攀枝花 617000
2 中北大学软件学院, 山西 太原 030051
恒星光谱分类是天文学研究的一个热点问题。 随着观测光谱数量的急剧增加, 传统的人工分类无法满足实际需求, 急需利用自动化技术, 特别是数据挖掘算法来对恒星光谱进行自动分类。 关联规则、 神经网络、 自组织网络等数据挖掘算法已广泛应用于恒星光谱分类。 其中, 支持向量机(SVM)分类能力突出, 被广泛应用于恒星光谱分类。 该方法试图在两类样本之间找到一个最优分类面将两类分开。 该方法具有较高的时间复杂度, 计算效率有限。 双支持向量机(TWSVM)的出现有效地解决了SVM面临的效率问题。 该方法通过构造两个非平行的分类面将两类分开, 每一类靠近某个分类面, 而远离另一个分类面。 TWSVM的计算效率较之传统SVM提高近4倍, 因此, 自TWSVM提出后便受到研究人员的持续关注。 但上述方法在分类决策时, 一方面没有考虑数据的分布特征, 另一方面较易受噪声点和奇异点的影响, 分类效率难以显著提升。 鉴于此, 在双支持向量机的基础上, 提出融合数据分布特征的模糊双支持向量机(TWSVM-SDP)。 该方法引入线性判别分析(LDA)的类间离散度和类内离散度, 用以表征光谱数据的分布性状; 引入模糊隶属度函数用以降低噪声点和奇异点对分类结果的影响。 在SDSS DR8恒星光谱数据集上的比较实验表明, 与支持向量机SVM、 双支持向量机TWSVM等传统分类方法相比, 融合数据分布特征的模糊双支持向量机TWSVM-SDP具有更优的分类能力。 该方法亦存在一定的局限性, 其中一大难题是其无法处理海量光谱数据。 接下来将利用大数据处理技术, 来对所提方法在大数据环境下的适应性展开进一步研究。
恒星光谱 分类 数据分布特征 模糊隶属度 双支持向量机 Stellar spectra Classification Spectral distribution properties Fuzzy membership function Twin support vector machine 
光谱学与光谱分析
2019, 39(4): 1307
作者单位
摘要
1 泉州信息工程学院软件学院, 福建 泉州 362000
2 中北大学软件学院, 山西 太原 030051
3 中国科学院新疆天文台, 新疆 乌鲁木齐 830011
4 辽宁科技大学理学院, 辽宁 鞍山 114051
恒星光谱分类是天文技术与方法领域一直关注的热点问题之一。 随着观测设备持续运行和不断改进, 人类获得的光谱数量与日俱增。 这些海量光谱为人工处理带来了极大挑战。 鉴于此, 研究人员开始关注数据挖掘算法, 并尝试对这些光谱进行数据挖掘。 近年来, 神经网络、 自组织映射、 关联规则等数据挖掘方法广泛应用于恒星光谱分类。 在这些方法中, 支持向量机(SVM)以其强大的学习能力和高效的分类性能而备受推崇。 SVM的基本思想是试图在两类样本之间找到一个最优分类面将两类分开。 SVM在求解时, 通过将其最优化问题转化为具有(QP)形式的凸问题, 进而得到全局最优解。 尽管该方法在实际应用中表现优良, 但为了进一步提高其分类能力, 有的学者提出双支持向量机(TSVM)。 该方法通过构造两个非平行的分类面将两类分开, 每一类靠近某个分类面, 而远离另一个分类面。 TSVM的计算效率较之传统SVM提高近4倍, 因此, 自TSVM提出后便受到研究人员的持续关注, 并出现若干改进算法。 在恒星光谱分类中, 一般分类算法都是根据历史观测光谱来建立分类模型, 其中最关键的是对光谱进行人工标注, 这项工作极为繁琐, 且容易犯错。 如何利用已标记的光谱以及部分无标签的光谱来建立分类模型显得尤为重要。 因此, 提出带无标签数据的双支持向量机(TSVMUD)用以实现对恒星光谱智能分类的目的。 该方法首先将光谱分为训练数据集和测试数据集两部分; 然后, 在训练集上进行学习, 得到分类依据; 最后利用分类依据对测试集上的光谱进行验证。 继承了双支持向量机的优势, 更重要的是, 在训练集上学习分类模型过程中, 不仅考虑有标记的训练样本, 也考虑部分未标记的样本。 一方面提高了学习效率, 另一方面得到更优的分类模型。 在SDSS DR8恒星光谱数据集上的比较实验表明, 与支持向量机SVM、 双支持向量机TSVM以及K近邻(KNN)等传统分类方法相比, 带无标签数据的双支持向量机TSVMUD具有更优的分类能力。 然而, 该方法亦存在一定的局限性, 其中一大难题是其无法处理海量光谱数据。 该工作将借鉴海量数据随机采样思想, 利用大数据处理技术, 来对所提方法在大数据环境下的适应性展开进一步研究。
恒星光谱 智能分类 双支持向量机 无标签数据 Stellar spectra Intelligent classification Twin support vector machine Unlabeled data 
光谱学与光谱分析
2019, 39(3): 948
作者单位
摘要
中北大学软件学院, 山西 太原 030051
支持向量机作为一种经典的分类方法被广泛应用于恒星光谱分类领域。 该方法在实际应用中取得了较为理想的分类效果, 但其面临无法解决多分类问题的挑战。 在支持向量机的基础上, 提出多类支持向量机, 建立基于多类支持向量机的恒星光谱分类模型。 该方法的最大优势是经过一次分类过程, 可以确定多类样本的类属。 SDSS DR8恒星光谱数据上的比较实验表明, 本研究所提的方法较之已有多分类方法在分类性能上有一定的提升。
支持向量机 多类支持向量机 恒星光谱 自动分类 Support vector machine Multi-class support vector machine Stellar spectra Automatic classification 
光谱学与光谱分析
2018, 38(7): 2307
作者单位
摘要
1 中北大学软件学院, 山西 太原 030051
2 中国科学院光学天文重点实验室, 北京 100012
数据挖掘被广泛应用于恒星光谱分类。 为了提高传统光谱分类方法性能, 提出熵学习机(Entropy-based Learning Machine, ELM)。 在该方法中, 熵用来刻画分类的不确定性。 为了得到理想的分类结果, 分类的不确定性应最小, 基于此, 可得ELM的最优化问题。 ELM在处理二分类问题和稀有光谱发现等方面具有一定优势。 SDSS中K型、 F型、 G型恒星光谱数据集上的比较实验表明: ELM在进行恒星光谱分类时, 其分类性能优于k近邻(k Nearest Neighbor)和支持向量机(Support Vector Machine)等传统分类方法。
数据挖掘 恒星光谱分类  斯隆数字巡天 Data mining Stellar spectra classification Entropy Sloan digital sky survey (SDSS) 
光谱学与光谱分析
2018, 38(2): 660
作者单位
摘要
1 中北大学软件学院, 山西 太原 030051
2 中国科学院国家天文台光学天文重点实验室, 北京 100012
3 中国科学院国家天文台, 北京 100012
从海量恒星光谱中发现稀有光谱是天文学研究的重要课题之一。 与一般光谱相比, 稀有光谱数量较少, 因此, 传统分类方法无法正常工作。 究其原因是这些方法不仅在分类决策时并未对稀有光谱予以更多关注, 而且只关注分类的准确率。 鉴于此, 在总结当前分类方法的基础上, 深入分析互信息与决策树之间的关系, 提出基于互信息的代价缺失决策树。 SDSS DR8中K型、F型、G型以及M型恒星光谱上的比较实验表明, 与传统分类方法相比, 所提方法能够较好地完成稀有光谱识别的任务。
不平衡分类 互信息 稀有光谱 决策树 Unbalanced classification Mutual information Rare spectra Decision tree 
光谱学与光谱分析
2016, 36(11): 3746
作者单位
摘要
1 中北大学计算机与控制工程学院, 山西 太原 030051
2 山西大学商务学院信息学院, 山西 太原 030031
由于人类对宇宙的认识有限, 因此, 如何通过对光谱数据分析发现一些新的、 特殊的天体成为天文学家面临的重要课题。 目前, 常见特殊天体发现方法的基本思想是利用智能分类算法对离群数据进行分析。 然而, 当前主流分类算法大多对离群数据不敏感, 分类性能甚至受离群点影响较大, 因而无法完成特殊天体发现任务。 鉴于此, 提出基于模糊大间隔最小球分类模型的离群数据挖掘方法, 该方法利用部分一般样本和离群样本建立最小球模型, 并在此基础上引入模糊技术, 通过降低噪声的权重, 尽量减少噪声的影响。 与C-SVM, SVDD, KNN等传统分类方法在SDSS恒星光谱数据集上的比较实验表明所提方法的有效性。
恒星光谱 分类 模糊大间隔最小球 离群数据 Stellar spectrum Classification Fuzzy large margin and minimum ball Spectra outlier data 
光谱学与光谱分析
2016, 36(4): 1245
作者单位
摘要
1 中北大学计算机与控制工程学院, 山西 太原 030051
2 河南信息统计学院人事处, 河南 郑州 450008
3 山西大学商务学院信息学院, 山西 太原 030031
支持向量机(support vector machine, SVM)具有良好的学习性能和泛化能力, 因而被广泛应用于恒星光谱分类中。然而实际应用面临的数据规模往往很大, SVM便暴露出计算量大、分类速度慢等问题。为了解决上述问题, Jayadeva等提出双支持向量机(twin support vector machine, TWSVM), 将计算时间减少至SVM的1/4。然后上述方法仅关注数据的全局特征, 对每类数据的局部特征并未关注。鉴于此, 提出基于流形模糊双支持向量机(manifold fuzzy twin support vector machine, MF-TSVM)的恒星光谱分类方法。利用流形判别分析获得数据的全局特征和局部特征, 模糊隶属度函数的引入将各类数据区别对待, 尽可能减少噪声点和奇异点对分类结果的影响。与C-SVM, KNN等传统分类方法在SDSS恒星光谱数据集上的比较实验表明了该方法的有效性。
自动分类 恒星光谱 流形判别分析 模糊隶属度 双支持向量机 Automatic classification Star spectra data Manifold-based discriminant analysis (MDA) Fuzzy membership Twin support vector machine (TWSVM) 
光谱学与光谱分析
2015, 35(1): 263
作者单位
摘要
1 中北大学计算机与控制工程学院, 山西 太原030051
2 中北大学信息与通信工程学院, 山西 太原030051
3 山西大学商务学院信息学院, 山西 太原030031
尽管经典的分类方法支持向量机SVM在天文学领域广泛应用, 但其只考虑类间的绝对间隔而忽略类内的分布性状, 因而分类性能有待于进一步提升。 鉴于此, 提出一种新颖的基于流形判别分析和支持向量机的恒星光谱数据自动分类方法。 该方法引入流形判别分析的两个重要概念: 基于流形的类内离散度MW和基于流形的类间离散度MB。 所提方法找到的分类面同时保证MW最小且MB最大。 可建立相应最优化问题, 然后将原最优化问题转化为QP对偶形式求得支持向量和判别函数, 最后利用判别函数判断测试样本的类属。 该方法的最大优势在于进行分类决策时, 不仅考虑样本的类间信息和分布特征, 而且还保持了各类的局部流形结构。 SDSS恒星光谱数据上的比较实验表明该方法的有效性。
自动分类 恒星光谱数据 流形判别分析 支持向量机 Automatic classification Star spectra data Manifold-based discriminant analysis (MDA) Support vector machine (SVM) 
光谱学与光谱分析
2014, 34(1): 263
作者单位
摘要
1 江南大学 数字媒体学院, 江苏 无锡 214122
2 山西大学商务学院 信息学院, 山西 太原 030031
对利用超平面、超(椭)球等几何形状实现数据分类的基于边界的主流分类方法进行了研究, 在此基础上, 提出了一种将空间点作为分类依据的最大间隔模糊分类器(MFC)。该方法首先在模式空间中找到一个模糊分类点c, c点距离两类样本要尽可能近且类间夹角间隔尽可能大。然后, 测试样本通过c与训练样本间的最大化夹角间隔实现分类。最后, 利用MFC的核化对偶式与最小包含球(MEB)的等价性, 将MFC的应用范围从二类推广到单类。与主流分类方法的比较实验表明, MFC具有优良的分类性能和抗噪能力, 其分类最高精度可达98.8%。
模式分类 模糊分类器 模糊分类点 抗噪能力 单类问题 pattern classification fuzzy classifier fuzzy classified point noise resistance one-class classification 
光学 精密工程
2012, 20(1): 140

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!