作者单位
摘要
辽宁科技大学理学院, 辽宁 鞍山 114051
恒星光谱分类是恒星光谱分析的重要工作之一。 我国大型巡天项目LAMOST能够获得海量的恒星光谱数据, 为了对海量恒星光谱数据进行高效分类, 特别是对恒星光谱子型数据进行分类, 需要研究快速有效的恒星光谱自动分类算法。 提出一种基于Transformer特征提取的混合深度学习算法Bert+svm(简记为Besvm)实现A型恒星光谱子型的自动分类。 该算法将A型恒星光谱26个线指数作为输入特征, 应用Bert模型对26个线指数进行更深层次的学习, 通过学习26个线指数的内在关联, 进而提取到更有利于A型恒星光谱子型分类的特征。 提取好的新特征被输入到分类器算法支持向量机(简记为SVM)中, 进而对A型恒星光谱的三个子型A1、 A2和A3进行自动分类。 此前, SVM算法在恒星光谱分类任务中已经有过应用, 一些衍生的SVM算法在恒星光谱分类任务中也有较高的分类正确率。 相比从前应用到恒星光谱分类任务的SVM算法, 我们的混合深度学习算法受数据的信噪比影响较小, 使用低信噪比数据也能有较高的分类正确率, 并且所用数据量较少。 通过五组实验验证了该算法的有效性和优越性: 实验1用来对比选择优秀的核函数, 通过光谱数据的匹配实验, 最终选择了径向基核函数RBF; 实验2对比了Besvm算法和其他四种传统优秀算法的性能指标, 验证了Besvm算法的优越性; 实验3用来检验Besvm算法的稳定性; 实验4分析了数据量对Besvm算法的影响; 实验5分析了不同信噪比数据对Besvm算法分类正确率的影响。 综合实验结果分析表明, 提出的混合深度学习算法Besvm在规模较小且信噪比低的数据集上仍能保持较高的分类正确率。 Besvm总体分类错误率在0.01以下, 远低于经典传统机器学习算法LDA算法, BP神经网络算法, SVM算法和Xgboost算法的分类错误率0.7, 0.66, 0.65, 0.36.需要说明的是BP神经网络算法的分类正确率过于受限于隐层神经元的个数。
光谱分类 线指数 Transformer Transformer Bert Bert SVM SVM Spectral classification Line index LAMOST LAMOST 
光谱学与光谱分析
2023, 43(5): 1575
作者单位
摘要
1 中国科学院国家天文台光学天文重点实验室, 北京 100101
2 中国科学院大学, 北京 100049
恒星光谱分类是研究恒星的基础性工作之一, 常用的光谱分类是基于20世纪70年代Morgan和Keenan建立起来的并逐步完善的MK分类系统。 然而基于MK规则的交互式决策分类系统对处理海量天文光谱数据存在着一定的困难。 目前光谱巡天一般采用的自动化分类则是模版匹配方法而忽略对谱线特征的测量。 怎样自动、 客观地提取海量光谱中的分类特征并应用这些特征进行分类可以对天体的物理化学性质的统计分析至关重要。 针对此问题, 通过机器学习和计算光谱的谱线指数结合的方法, 提取光谱特征, 并通过大数据分析定量地确定对光谱特征谱线的分类判据(数值化), 确定每一类光谱具有物理意义的特征谱线的强度分布。 首先对LAMOST DR4恒星光谱测量其谱线指数作为输入, 光谱的分类标记采用官方发布的分类结果。 使用XGBoost算法进行自动分类及特征排序, 从而获得已知或未知的对于分类决策最为敏感的谱线。 首先, 选取高信噪比(S/N>30)、 被LAMOST标记为B, A, F和M的恒星光谱数据, 总计约414万个。 然后, 对光谱数据计算谱线指数从而使其得到降维处理, 过滤冗余信息。 其次, 将处理后的恒星光谱数据随机划分为训练集和测试集, 通过适当调整算法参数, 用训练集得到所需要的分类决策树模型, 用测试集测试其稳定性和可用性, 以防止出现过拟合, 同时使用算法自带函数进行提取分类特征。 最后, 输出并整理实验中算法所得的决策树模型, 并挑选其概率比较大的分支作为最终的决策树模型。 通过实验, 可以发现在固定参数下, XGBoost所得的模型有一定的自适应性, 较少受数据集影响, 总体准确率可达88.5%; 同时其所输出的分类决策树与已知的特征较为吻合, 而且可以获得基于大数据的、 数值化的特征谱线对应分类的范围, 为完善基于特征的分类提供定量的规则。
光谱分类 线指数 决策树 Spectral classification Line index XGBoost XGBoost Decision tree LAMOST LAMOST 
光谱学与光谱分析
2019, 39(10): 3292
作者单位
摘要
1 齐齐哈尔大学计算机与控制工程学院, 黑龙江 齐齐哈尔 161006
2 梧州学院大数据与软件工程学院, 广西 梧州 543002
天文光谱线指数数据能够较好地保留着恒星的物理特征信息, 为此借助线指数特征数据构建多参数模型, 有利于更好地回归分析数据的共变关系及谱线的内在规律。 世界上光谱获取率最高的施密特天文望远镜LAMOST发布的观测光谱都已经过标记, 利用天文可视化工具分析这些标记的恒星光谱线指数会产生预测因子自相关, 多元线性回归时因变量存在共线性, 导致方差较大、得到最小二乘回归系数不稳定, 虽不影响使用回归的有效性, 但较难从回归方程中得到独立预测因子的评估系数。 利用LAMOST巡天光谱数据中A型恒星Lick线指数为数据源, 选取有效温度Teff为7 000~8 500 K, 取信噪比大于50的光谱特征值实现回归分析恒星参数Teff值, 经箱线图呈现DR5星表中, A型光谱86 097条具备Teff值大样本光谱数据的整体分布, 统计分析26种线指数的特征值后, 选取分布相似且带宽为12 的kp12, halpha12和hgamma12字段, 减少解释线指数变量的数目, 优化冗余变量方差膨胀因子(VIF)系数。 实验选取两两变量间观测数据集, 局部拟合回归散点、 同样的数据源使用散点图的总体轮廓生成高密度散点图, 利用色差透明性突出显示数据密集区域。 结果表明多元线性回归和岭回归算法都能从低分辨率光谱中确定A型恒星的有效温度, 但经过共线性数据分析有偏估计实验, 使用岭回归分析寻找最佳模型, 能更准确地确定恒星有效温度, 进而得到预测A型恒星有效温度及谱线回归特性。
恒星光谱 岭回归 线性模型 Lick线指数 Stellar spectra LAMOST LAMOST (Large sky area multi-object fiber spectros Ridge regression Linear model Lick line index 
光谱学与光谱分析
2019, 39(8): 2624
作者单位
摘要
1 山东大学(威海)机电与信息工程学院, 山东 威海 264209
2 中国科学院光学天文重点实验室, 国家天文台, 北京 100012
大规模光谱巡天将产生海量的光谱数据, 为搜寻一些奇异甚至于未知类型的光谱提供了机会, 对这些特殊天体的研究有助于揭示宇宙的演变规律和生命起源, 巡天数据的离群数据挖掘有助于这些特殊的光谱的发现。 利用线指数对光谱数据进行降维能够在尽可能多的保留光谱物理特征的同时, 有效解决高维光谱数据聚类分析中运算复杂度较高的问题。 提出了基于线指数特征的海量恒星光谱离群数据挖掘及分析的方法, 以恒星光谱的Lick线指数作为光谱数据的特征, 利用聚类搜寻离群数据的方法在海量光谱巡天数据搜寻离群数据, 以此为基础并给出线指数特征空间内离群光谱数据的分析方法。 实验结果证明: (1)以线指数作为光谱的特征值能快速的完成对高维光谱数据的离群数据挖掘, 可以解决高维光谱数据运算复杂度高的问题; (2)该方法是在聚类结果上进行的离群数据挖掘, 能够有效的挖掘出数量较少的发射线恒星、 晚M型恒星、 极贫金属星、 缺失数据光谱等数据; (3)线指数特征空间的离群数据挖掘可以得到线指数特征空间内特殊恒星的发现规则。 本文所提出的基于线指数特征的离群数据挖掘及分析方法可以应用到巡天数据的相关研究中。
Lick线指数 离群数据挖掘 恒星光谱 Lick line index Outlier datamining Stellar spectra 
光谱学与光谱分析
2016, 36(10): 3364
潘景昌 1,*王杰 1姜斌 1罗阿理 1,2[ ... ]郑强 3
作者单位
摘要
1 山东大学(威海)机电与信息工程学院, 山东 威海 264209
2 中国科学院光学天文重点实验室, 国家天文台, 北京 100012
3 烟台大学计算机与控制工程学院, 山东 烟台 264005
天体光谱中蕴含着非常丰富的天体物理信息, 通过对光谱的分析, 可以得到天体的物理信息、 化学成分以及天体的大气参数等。 随着LAMOST和SDSS等大规模巡天望远镜的实施, 将会产生海量的光谱数据, 尤其是LAMOST正式运行后, 每个观测夜产生大约2~4万条光谱数据。 如此海量的光谱数据对光谱的快速有效的处理提出了更高的要求。 恒星光谱的自动分类是光谱处理的一项基本内容, 该研究主要工作就是研究海量恒星光谱的自动分类技术。 Lick线指数是在天体光谱上定义的一组用以描述光谱中谱线强度的标准指数, 代表光谱的物理特性, 以每个线指数最突出的吸收线命名, 是一个相对较宽的光谱特征。 研究了基于Lick线指数的贝叶斯光谱分类方法, 对F, G, K三类恒星进行分类。 首先, 计算各类光谱的Lick线指数作为特征向量, 然后利用贝叶斯分类算法对三类恒星进行分类。 针对海量光谱的情况, 基于Hadoop平台实现了Lick线指数的计算, 以及利用贝叶斯决策进行光谱分类的方法。 利用Hadoop HDFS高吞吐率和高容错性的特点, 结合Hadoop MapReduce编程模型的并行优势, 提高了对大规模光谱数据的分析和处理效率。 该研究的创新点为: (1) 以Lick线指数作为特征, 基于贝叶斯算法实现恒星光谱分类; (2) 基于Hadoop MapReduce分布式计算框架实现Lick线指数的并行计算以及贝叶斯分类过程的并行化。
Lick线指数 恒星光谱分类 Lick line index Stellar spectral classification Hadoop Hadoop 
光谱学与光谱分析
2016, 36(8): 2651
作者单位
摘要
1 山东大学(威海)机电与信息工程学院, 山东 威海 264209
2 中国科学院光学天文重点实验室, 国家天文台, 北京 100012
聚类分析是数据挖掘中用以发现数据分布和隐含模式的一种重要算法, 能简单有效地研究大样本、 多参量和类别未知的光谱数据。 以线指数作为光谱数据的特征值能够在尽可能多的保留光谱物理特征的同时, 有效解决高维光谱数据聚类分析中运算复杂度较高的问题。 本文提出了基于线指数特征的海量恒星光谱数据聚类分析的方法, 提取恒星光谱中的Lick线指数作为海量巡天光谱数据的特征, 使用k均值聚类算法完成对光谱数据的聚类, 然后对聚类结果进行有效的分析。 实验结果证明该方法能够快速有效地将具有相似物理特征的恒星光谱数据聚集到一起, 该方法可以应用到巡天数据的研究中。
Lick线指数 聚类分析 恒星光谱 Lick line index Clustering Stellar spectra 
光谱学与光谱分析
2016, 36(8): 2646
作者单位
摘要
1 山东大学(威海)机电与信息工程学院, 山东 威海264209
2 中国科学院光学天文重点实验室, 国家天文台, 北京100012
3 华南师范大学数学科学学院, 广东 广州510631
提出一种基于BP神经网络及Ca线线指数估计恒星大气金属丰度的方法。 该方法以从斯隆数字巡天SDSS中恒星光谱以及SSPP给出的参数作为训练样本, 其中每条恒星光谱计算16个Ca线线指数, 结合其他方法得到的表面有效温度Teff作为输入, 以SSPP得到的金属丰度[Fe/H]作为输出, 对训练样本进行重采样后通过训练得到一个人工神经网络, 通过该网络可以用来预测恒星光谱的[Fe/H]。 通过相关实验表明, 提出的方法能够准确而且有效的测量出恒星光谱的[Fe/H]。
恒星光谱 金属丰度 LAMOST巡天 Ca线线指数 Stellar spectra Stellar metallicity LAMOST survey Ca line index 
光谱学与光谱分析
2015, 35(9): 2650
作者单位
摘要
山东大学(威海)机电与信息工程学院, 山东 威海264209
恒星大气物理参数(有效温度、 表面重力、 化学丰度)的自动测量是天体光谱数据自动处理中的一项重要内容。 由于光谱数据的高维性的特点, 处理运算量非常大, 对于光谱的实时分析及处理会造成延误。 文章提出了一种基于Lick线指数, 利用核偏最小二乘回归(KPLSR) 对恒星大气物理参数进行测量的方法。 可以有效地减少运算量并可达到理想的准确率。 首先计算Kurucz合成光谱的Lick线指数, 利用核偏最小二乘回归方法建立Lick线指数与大气物理参数之间的核回归模型, 并利用DR8实测光谱数据对得到的模型进行测试, 将测试的结果与SEGUE SSPP提供的大气物理参数进行了对比, 取得了比较好的效果。 此外, 为了检验噪声对参数测量的影响, 本文还对Kurucz光谱分别加了信噪比为10, 20, 30, 40, 50, 70, 90, 120的高斯白噪声, 对得到的不同信噪比的Kurucz数据进行了测试, 实验结果表明, 核回归模型对噪声比较敏感, 光谱数据的信噪比越高, 其大气物理参数的预测精度越高。 提出的基于线指数建立核偏最小二乘回归模型的方法运算量小, 训练速度快, 适合用于恒星大气物理参数的测量。
Lick线指数 核偏最小二乘回归(KPLSR) 恒星物理参数 Lick line index Kernel partial least squares regression (KPLSR) Stellar physical parameters 
光谱学与光谱分析
2014, 34(3): 833
作者单位
摘要
1 山东大学(威海)机电与信息工程学院, 山东 威海264209
2 中国科学院光学天文重点实验室, 中国科学院国家天文台, 北京100012
3 辽宁科技大学理学院, 辽宁 鞍山144051
通过人工神经网络的方法基于Lick线指数, 来进行大气物理参数的测量, 对Kurucz的合成光谱进行预处理以适应最后LAMOST光谱数据的要求, 以Lick线指数与对应的大气物理参数为输入, 用人工神经网络进行训练, 得到训练模型通过DR8光谱数据进行测试, 通过调整人工神经网络的相关参数来使实验效果达到最佳。 结果证明, 通过线指数人工神经网络的方法来进行大气物理参数的测量是可行的。
Lick线指数 人工神经网络 恒星光谱参数 郭守敬望远镜(LAMOST) Lick line index Artificial neural network Stellar spectrum parameter LAMOST 
光谱学与光谱分析
2013, 33(6): 1701
作者单位
摘要
1 山东大学(威海)机电与信息工程学院, 山东 威海264209
2 中国科学院光学天文重点实验室, 中国科学院国家天文台, 北京100012
3 辽宁科技大学理学院, 辽宁 鞍山144051
利用Lick线指数, 根据光谱的海量特点, 从统计回归的角度出发, 通过线性回归的方法来设计大气物理参数测量的高效算法。 线性回归通过选择最佳的线指数组合及回归类型的选择来使其达到最佳的回归效果。 因为得到的是公式性的回归模型, 所以使得其应用于新的数据时计算速度可以很快, 且清晰明了, 便于分析处理, 这是其他方法所达不到的。 实验结果证明, 通过线指数回归的方法来进行大气物理参数的测量是可行的。
Lick线指数 线性回归 恒星光谱参数 郭守敬望远镜 Lick line index Linear regression Stellar spectrum parameter LAMOST 
光谱学与光谱分析
2013, 33(5): 1397

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!