作者单位
摘要
河北工业大学, 天津 300400
恒星的分类问题一直是天文研究的一大热点, 恒星的亚型分类对探究恒星演化、 稀有天体识别等具有重大意义。 针对LAMOST光谱亚型分类问题设计了SSTransformer (stellar spectrum transformer)分类模型, 该模型主要由三部分组成, 包括输入模块、 嵌入模块、 SST编码模块。 在输入模块中, 将光谱数据进行分块处理, 这些块经过线性投射层被映射为向量。 在嵌入模块中, 为了提取有用的数据特征, 将线性投射层的输出加入一个可学习的类别嵌入块, 为了保留位置信息, 再加入位置嵌入块, 之后将这些数据特征向量送入SST编码模块。 最后在SST编码模块中, 对数据特征进行提取处理, 并利用多层感知器结合新特征对恒星光谱进行分类。 采用的A、 F、 G、 K、 M型恒星光谱数据均来自LAMOST DR8中的一维低分辨率光谱, 35 256条一维光谱数据用于SSTransformer模型的训练, 8815条一维光谱数据用作模型的测试。 为了加快模型的收敛速度, 对数据采用Z-Score归一化处理。 由于是多分类问题, 实验采用了准确率、 精确率、 召回率、 F1-Score、 Kappa系数五个评价指标。 实验结果证明, 利用SSTransformer模型可实现对一维恒星光谱数据有效的筛选分类, 分类准确率达到98.36%, 比支持向量机(support vector machine, SVM)算法、 极端梯度提升(eXtreme Gradient Boosting, XGBoost)算法, 以及卷积神经网络(convolutional neural networks, CNN)的分类准确率更高。
恒星光谱 自动分类 SSTransformer模型 归一化 Stellar spectra Automatic classification SSTransformer model Normalized 
光谱学与光谱分析
2023, 43(8): 2523
作者单位
摘要
河北工业大学电子信息工程学院, 天津 300401
随着越来越多的大型光谱巡天计划的实施, 产生了海量的恒星光谱数据, 这对于恒星演化理论的研究具有重大意义, 但也给传统的光谱分类和处理带来极大挑战。 2021年发布的LAMOST DR7(v2.0版本)光谱数据集中, 恒星光谱总量为百万量级, 但其中O型星的数量仅为129条, 远远小于其他六类恒星光谱数量。 对于这种数据量大、 数据集严重不平衡的情况, 传统的机器学习分类方法达不到较好的效果, 因此多用于对相邻两类、 部分类或子类恒星光谱进行分类。 针对以上问题, 使用一维卷积神经网络(CNN)和一维生成对抗网络(GAN)相结合的半监督学习模式对七类恒星光谱进行全分类。 实验首先对每条光谱进行裁剪和去噪, 截取光谱波长范围为370.00~867.16 nm部分, 然后进行均匀采样和归一化, 生成大小为1×3 700的数据集样本, 送入CNN进行训练。 为了避免过拟合并提高模型对未知数据的预测能力, 在CNN的全连接层和池化层之间添加正则项Dropout。 使用该网络对除O型星以外的六类光谱进行分类, 平均分类准确率达到98.08%。 针对O型星数量严重偏少的问题, 采用GAN来扩充数据集。 GAN的输入是1×900大小的噪声信号, 经过生成器中全连接的三层跨步卷积运算, 输出大小为1×3 700的数据。 通过对生成器和判别器进行单独交替迭代训练使GAN收敛, 最终输出所需数量的O型星样本, 达到扩充数据集的目的。 和常见的通过过采样扩充数据集相比, 利用GAN扩充数据集, 结合一维CNN对恒星光谱进行全分类, 可以将O型星的分类准确率由72.92%提升至97.92%, 整个分类器的准确率达到96.28%。 实验结果表明, 使用这种半监督模式的恒星光谱自动分类方法可以实现对七类恒星光谱的快速、 准确分类, 也可以用于对标记为“Unknown”的未分类恒星光谱进行挖掘, 达到充分利用光谱的目的。
恒星光谱 自动分类 卷积神经网络 生成对抗网络 半监督模式 Star spectra Automatic classification Convolutional neural networks Generative adversarial networks Semi-supervised mode 
光谱学与光谱分析
2023, 43(6): 1875
作者单位
摘要
1 河北工业大学, 天津 300400
2 中国科学院国家天文台, 北京 100012
天体光谱处理中的一项基本任务是对大量的恒星光谱进行自动分类。 到目前为止, 恒星光谱的分类工作多是基于一维光谱数据。 该研究打破传统的天体光谱数据处理流程, 提出了基于二维恒星光谱分类的方法。 在LAMOST(the large sky area multi-object fiber spectroscopic telescope)的数据处理流程中, 所有的一维光谱都是由二维光谱抽谱、 合并得来。 二维光谱是由光谱仪产生的图像, 包括蓝端图像和红端图像。 基于LAMOST二维光谱数据, 提出了特征融合卷积神经网络(FFCNN)分类模型, 用于二维恒星光谱的分类。 该模型是一个有监督的算法, 通过两个CNN模型分别提取蓝端图像和红端图像的特征, 然后将二者进行融合得到新的特征, 再利用CNN对新特征进行分类。 所使用的数据全部来源于LAMOST, 我们在LMOST DR7中随机选择了一批源, 然后获得了它们的二维光谱。 一共有14 840根F, G和K型恒星的二维光谱用于FFCNN模型的训练, 其中包括7 420根蓝端光谱和7 420根红端光谱。 由于三类恒星光谱的数量并不均衡, 在训练的过程中分别为每类恒星光谱设置了不同权重, 防止模型出现分类失衡现象。 同时, 为了加快模型收敛, 对二维光谱数据采用Z-score归一化处理。 此外, 为了充分利用所有样本, 提高模型的可靠度, 采用五折交叉验证的方法验证模型。 3 710根二维光谱用作测试集, 使用准确率、 精确率、 召回率和F1-score来对FFCNN模型的性能进行评价。 实验结果显示, F, G和K型恒星的精确率分别达到87.6%, 79.2%和88.5%, 而且它们超过了一维光谱分类的结果。 实验结果证明基于FFCNN的二维恒星光谱分类是一种有效的方法, 它也为恒星光谱的处理提供了新的思路和方法。
二维恒星光谱 光谱分类 FFCNN模型 归一化 交叉验证 Two-dimensional stellar spectra Spectral classification FFCNN model Normalized Cross-validation 
光谱学与光谱分析
2022, 42(6): 1881
作者单位
摘要
1 中国科学院云南天文台, 云南 昆明 650011
2 中国科学院大学, 北京 100049
近年来, 随着各大光谱巡天项目的陆续实施, 观测得到的天体光谱数据急剧增长。 大型光谱巡天项目对光谱的自动分类和分析提出了更高的要求。 本文将分类问题转化为回归问题, 提出一种基于深度残差网络的光谱类别预测方法, 对恒星光谱进行光谱次型预测。 网络主要包括25个卷积层, 1个最大池化层, 1个平均池化层, 全连接层以及12个残差结构。 最大池化层用来筛选特征, 卷积层提取特征, 平均池化层用于减少模型参数, 提高效率。 残差结构可以防止网络退化, 加深网络来提取高维抽象特征以及提高训练速度。 考虑到数据有非零几率存在错误标签以及损坏数据, 采用Log-Cosh作为损失函数来降低坏样本带来的负面影响。 实验数据使用的是从LAMOST DR5中随机抽取的80 000条光谱, 由于光谱质量等原因, 每个光谱型的光谱数量不一。 经过剔除坏值, 流量归一化后, 按7∶1∶2分为训练集、 验证集和测试集。 实验包括两个部分, 第一个部分是使用数据集训练网络在光谱次型上进行类别预测, 使用最大绝对误差、 平均绝对误差以及标准差来比较不同形状卷积核的性能。 将预测值作为横坐标, 标签作为纵坐标, 对测试集所有样本点使用二阶非线性拟合, 得到了一条与y=x重合的直线。 证明模型可以很好的预测光谱次型。 第二部分是对模型进行内部分析, 使用类别激活映射的方法分别研究了模型预测A, F, G和K四种类型光谱时所关注的主要特征, 赋予了模型可解释性。 在文中数据集上, 该方法对91.4%的光谱预测误差在0.5个光谱次型以内, 预测的平均绝对误差为0.3个光谱次型。 并与非参数回归、 Adaboost回归树、 K-Means三种方法进行同数据集比较, 结果表明文中提出的方法可以很好地预测光谱次型并且速度更快, 准确率更高。
恒星光谱 光谱次型预测 深度学习 回归 特征映射 Stellar spectrum MK classification Deep learning Regression Feature mapping 
光谱学与光谱分析
2021, 41(5): 1602
作者单位
摘要
山东大学机电与信息工程学院, 山东 威海 264209
随着天文学的发展以及天文望远镜观测能力的提升, 国内外许多大型巡天望远镜将产生PB级的恒星光谱数据。 恒星光谱是来自恒星的电磁辐射, 通常由连续谱与吸收线叠加而成, 其差异源于恒星的有效温度、 表面重力加速度以及元素的化学丰度等。 恒星光谱自动分类是天文数据处理的一项重要研究内容, 是研究恒星演化和参数测量的基础。 海量的恒星光谱对分类方法提出了高效、 准确的要求。 传统的人工分类方法存在速度慢、 精度低等缺点, 已经无法满足海量恒星光谱特别是低信噪比恒星光谱自动分类的实际需要, 机器学习算法目前已经被广泛地应用于恒星光谱分类。 恒星光谱的一个显著特征是数据维度较高, 降维不但可以实现特征提取, 而且可以降低计算量, 是光谱分类的首要任务。 传统的线性降维方法如主成分分析仅依据方差对光谱进行降维, 不同类型的光谱在投影到低维特征空间后会出现交叉现象, 而流形学习能够产生优良的分类边界, 很好地避开重叠, 有利于后续的分类。 针对光谱数据维度较高的特点, 研究了光谱数据在高维空间内的分布以及流形学习对高维线性数据降维的原理, 比较了t-SNE和主成分分析两种降维方法对光谱数据降维的效果, 并使用基于属性值相关距离的改进的K近邻算法进行光谱分类, 最终对实验结果进行了分析并使用多种机器学习分类器进行比较和验证。 采用Python语言及Scikit-learn第三方库实现了算法, 对SDSS的12 000条低信噪比的恒星光谱进行实验, 最终实现了光谱数据的高精度自动处理和分类。 实验结果表明, 对于光谱数据的降维处理, 基于流形学习的t-SNE方法能够在高维光谱数据中恢复低维流形结构, 即找出高维空间中的低维流形, 并解出与之对应的嵌入映射, 在降维过程中最大程度地保留不同类别光谱样本之间的差异从而产生明显的分类边界。 特征提取后, 使用机器学习分类器能够在测试数据集上达到满意的分类准确率。 所使用的方法也可以应用于其他的巡天望远镜产生的海量光谱的自动分类以及稀少天体的数据挖掘。
流行学习 恒星光谱分类 数据降维 K近邻算法 Manifold learning Stellar spectral classification Data reduction K-Nearest neighbor algorithm 
光谱学与光谱分析
2020, 40(9): 2913
王楠楠 1,*邱波 1马杰 1石超君 1[ ... ]郭平 2
作者单位
摘要
1 河北工业大学电子信息工程学院, 天津 300401
2 北京师范大学系统科学学院, 北京 100875
恒星光谱数据的分类是天体光谱自动识别的最基本任务之一, 光谱分类的研究能够为恒星的演化提供线索。 随着科技的发展, 天文数据也向大数据时代迈进, 需要处理的恒星光谱数量越来越多, 如何对其进行自动而精准地分类成为了天文学家要解决的难题之一。 当前恒星光谱自动分类问题的解决方法相对较少, 为此本文使用了一种基于卷积神经网络的方法对恒星光谱MK系统进行分类。 该网络由数据输入层、 四个卷积层、 四个池化层、 全连接层、 输出层构成, 与传统网络相比具有局部感知、 参数共享等优点实验。 在Python3.5的环境下编程, 利用Tensorflow构建了一个简单高效的具有四个卷积层的卷积神经网络, 并将Dropout作用于全连接层之后以防止过度拟合。 Dropout的基本思想: 当网络模型进行训练时, 把一些神经网络节点按一定的比例丢弃, 使其暂时不发挥作用。 Dropout可以理解成是一种十分高效的神经网络模型平均方法, 由于它不依赖于某些局部特征所以能够让网络模型更加鲁棒。 实验中使用的一维恒星光谱图是取自LAMOST DR3数据库, 首先进行预处理截取光谱3 600~7 300 的部分, 均匀采样后使用min-max标准化法对其进行初始化。 实验包括两部分: 第一部分为依据恒星光谱MK系统对光谱进行分类, 每一类的训练样本包含1 000条光谱数据, 测试样本为400条光谱数据, 首先通过训练样本对CNN网络进行训练, 进行3 000次的迭代, 用训练后的网络将测试样本进行分类以验证网络的准确性; 第二部分为相邻两类的恒星光谱的分类, 其中O型星数据集样本为250条光谱, 其余类别恒星样本数据集均为4 000条光谱, 将数据5等分, 每次选取当中的一份当作测试集, 其余部分当作训练集, 采用5折交叉验证法求得模型准确率, 用BP神经网络进行对比实验。 选择对网络模型进行评估的指标包括精确率P、 召回率R、 F-score、 准确率A。 实验结果显示CNN在对六类恒星光谱进行分类时其准确率都在95%以上, 在对相邻类别的恒星进行分类时, 由于O型星样本量较少, 所以得到的分类结果不太理想, 对其余类别的恒星分类准确率都高于98%, 以上结果都证明了CNN算法能够很好地解决恒星光谱的分类问题。
恒星光谱数据 自动分类 5折交叉验证 Stellar spectral data Automatic classification CNN CNN 5-Cross-validation 
光谱学与光谱分析
2019, 39(10): 3297
作者单位
摘要
1 齐齐哈尔大学计算机与控制工程学院, 黑龙江 齐齐哈尔 161006
2 梧州学院大数据与软件工程学院, 广西 梧州 543002
天文光谱线指数数据能够较好地保留着恒星的物理特征信息, 为此借助线指数特征数据构建多参数模型, 有利于更好地回归分析数据的共变关系及谱线的内在规律。 世界上光谱获取率最高的施密特天文望远镜LAMOST发布的观测光谱都已经过标记, 利用天文可视化工具分析这些标记的恒星光谱线指数会产生预测因子自相关, 多元线性回归时因变量存在共线性, 导致方差较大、得到最小二乘回归系数不稳定, 虽不影响使用回归的有效性, 但较难从回归方程中得到独立预测因子的评估系数。 利用LAMOST巡天光谱数据中A型恒星Lick线指数为数据源, 选取有效温度Teff为7 000~8 500 K, 取信噪比大于50的光谱特征值实现回归分析恒星参数Teff值, 经箱线图呈现DR5星表中, A型光谱86 097条具备Teff值大样本光谱数据的整体分布, 统计分析26种线指数的特征值后, 选取分布相似且带宽为12 的kp12, halpha12和hgamma12字段, 减少解释线指数变量的数目, 优化冗余变量方差膨胀因子(VIF)系数。 实验选取两两变量间观测数据集, 局部拟合回归散点、 同样的数据源使用散点图的总体轮廓生成高密度散点图, 利用色差透明性突出显示数据密集区域。 结果表明多元线性回归和岭回归算法都能从低分辨率光谱中确定A型恒星的有效温度, 但经过共线性数据分析有偏估计实验, 使用岭回归分析寻找最佳模型, 能更准确地确定恒星有效温度, 进而得到预测A型恒星有效温度及谱线回归特性。
恒星光谱 岭回归 线性模型 Lick线指数 Stellar spectra LAMOST LAMOST (Large sky area multi-object fiber spectros Ridge regression Linear model Lick line index 
光谱学与光谱分析
2019, 39(8): 2624
作者单位
摘要
1 河北工业大学电子信息工程学院, 天津 300401
2 北京师范大学信息科学与技术学院, 北京 100875
恒星光谱自动分类是研究恒星光谱的基础内容, 快速、 准确自动识别、 分类恒星光谱可提高搜寻特殊天体速度, 对天文学研究有重大意义。 目前我国大型巡天项目LAMOST每年发布数百万条光谱数据, 对海量恒星光谱进行快速、 准确自动识别与分类研究已成为天文学大数据分析与处理领域的研究热点之一。 针对恒星光谱自动分类问题, 提出一种基于卷积神经网络(CNN)的K和F型恒星光谱分类方法, 并与支持向量机(SVM)、 误差反向传播算法(BP)对比, 采用交叉验证方法验证分类器性能。 与传统方法相比CNN具有权值共享, 减少模型学习参数; 可直接对训练数据自动进行特征提取等优点。 实验采用Tensorflow深度学习框架, Python3.5编程环境。 K和F恒星光谱数据集采用国家天文台提供的LAMOST DR3数据。 截取每条光谱波长范围为3 500~7 500 部分, 对光谱均匀采样生成数据集样本, 采用min-max归一化方法对数据集样本进行归一化处理。 CNN结构包括: 输入层, 卷积层C1, 池化层S1, 卷积层C2, 池化层S2, 卷积层C3, 池化层S3, 全连接层, 输出层。 输入层为一批K和F型恒星光谱相同的3 700个波长点处流量值。 C1层设有10个大小为1×3步长为1的卷积核。 S1层采用最大池化方法, 采样窗口大小为1×2, 无重叠采样, 生成10张特征图, 与C1层特征图数量相同, 大小为C1层特征图的二分之一。 C2层设有20个大小为1×2步长为1的卷积核, 输出20张特征图。 S2层对C2层20张特征图下采样输出20张特征图。 C3层设有30个大小为1×3步长为1的卷积核, 输出30张特征图。 S3层对C3层30张特征图下采样输出30张特征图。 全连接层神经元个数设置为50, 每个神经元都与S3层的所有神经元连接。 输出层神经元个数设置为2, 输出分类结果。 卷积层激活函数采用ReLU函数, 输出层激活函数采用softmax函数。 对比算法SVM类型为C-SVC, 核函数采用径向基函数, BP算法设有3个隐藏层, 每个隐藏层设有20, 40和20个神经元。 数据集分为训练数据和测试数据, 将训练数据的40%, 60%, 80%和100%作为5个训练集, 测试数据作为测试集。 分别将5个训练集放入模型中训练, 共迭代8 000次, 每次训练好的模型用测试集进行验证。 对比实验采用100%的训练数据作为训练集, 测试数据作为测试集。 采用精确率、 召回率、 F-score、 准确率四个评价指标评价模型性能, 对实验结果进行详细分析。 分析结果表明CNN算法可对K和F型恒星光谱快速自动分类和筛选, 训练集数据量越大, 模型泛化能力越强, 分类准确率越高。 对比实验结果表明采用CNN算法对K和F型恒星光谱自动分类较传统机器学习SVM和BP算法自动分类准确率更高。
恒星光谱 自动分类 卷积神经网络 交叉验证 评价指标 Star spectra data Automatic classification Convolutional neural network Cross-validation Evaluation index 
光谱学与光谱分析
2019, 39(4): 1312
作者单位
摘要
1 攀枝花学院数学与计算机学院, 四川 攀枝花 617000
2 中北大学软件学院, 山西 太原 030051
恒星光谱分类是天文学研究的一个热点问题。 随着观测光谱数量的急剧增加, 传统的人工分类无法满足实际需求, 急需利用自动化技术, 特别是数据挖掘算法来对恒星光谱进行自动分类。 关联规则、 神经网络、 自组织网络等数据挖掘算法已广泛应用于恒星光谱分类。 其中, 支持向量机(SVM)分类能力突出, 被广泛应用于恒星光谱分类。 该方法试图在两类样本之间找到一个最优分类面将两类分开。 该方法具有较高的时间复杂度, 计算效率有限。 双支持向量机(TWSVM)的出现有效地解决了SVM面临的效率问题。 该方法通过构造两个非平行的分类面将两类分开, 每一类靠近某个分类面, 而远离另一个分类面。 TWSVM的计算效率较之传统SVM提高近4倍, 因此, 自TWSVM提出后便受到研究人员的持续关注。 但上述方法在分类决策时, 一方面没有考虑数据的分布特征, 另一方面较易受噪声点和奇异点的影响, 分类效率难以显著提升。 鉴于此, 在双支持向量机的基础上, 提出融合数据分布特征的模糊双支持向量机(TWSVM-SDP)。 该方法引入线性判别分析(LDA)的类间离散度和类内离散度, 用以表征光谱数据的分布性状; 引入模糊隶属度函数用以降低噪声点和奇异点对分类结果的影响。 在SDSS DR8恒星光谱数据集上的比较实验表明, 与支持向量机SVM、 双支持向量机TWSVM等传统分类方法相比, 融合数据分布特征的模糊双支持向量机TWSVM-SDP具有更优的分类能力。 该方法亦存在一定的局限性, 其中一大难题是其无法处理海量光谱数据。 接下来将利用大数据处理技术, 来对所提方法在大数据环境下的适应性展开进一步研究。
恒星光谱 分类 数据分布特征 模糊隶属度 双支持向量机 Stellar spectra Classification Spectral distribution properties Fuzzy membership function Twin support vector machine 
光谱学与光谱分析
2019, 39(4): 1307
作者单位
摘要
1 泉州信息工程学院软件学院, 福建 泉州 362000
2 中北大学软件学院, 山西 太原 030051
3 中国科学院新疆天文台, 新疆 乌鲁木齐 830011
4 辽宁科技大学理学院, 辽宁 鞍山 114051
恒星光谱分类是天文技术与方法领域一直关注的热点问题之一。 随着观测设备持续运行和不断改进, 人类获得的光谱数量与日俱增。 这些海量光谱为人工处理带来了极大挑战。 鉴于此, 研究人员开始关注数据挖掘算法, 并尝试对这些光谱进行数据挖掘。 近年来, 神经网络、 自组织映射、 关联规则等数据挖掘方法广泛应用于恒星光谱分类。 在这些方法中, 支持向量机(SVM)以其强大的学习能力和高效的分类性能而备受推崇。 SVM的基本思想是试图在两类样本之间找到一个最优分类面将两类分开。 SVM在求解时, 通过将其最优化问题转化为具有(QP)形式的凸问题, 进而得到全局最优解。 尽管该方法在实际应用中表现优良, 但为了进一步提高其分类能力, 有的学者提出双支持向量机(TSVM)。 该方法通过构造两个非平行的分类面将两类分开, 每一类靠近某个分类面, 而远离另一个分类面。 TSVM的计算效率较之传统SVM提高近4倍, 因此, 自TSVM提出后便受到研究人员的持续关注, 并出现若干改进算法。 在恒星光谱分类中, 一般分类算法都是根据历史观测光谱来建立分类模型, 其中最关键的是对光谱进行人工标注, 这项工作极为繁琐, 且容易犯错。 如何利用已标记的光谱以及部分无标签的光谱来建立分类模型显得尤为重要。 因此, 提出带无标签数据的双支持向量机(TSVMUD)用以实现对恒星光谱智能分类的目的。 该方法首先将光谱分为训练数据集和测试数据集两部分; 然后, 在训练集上进行学习, 得到分类依据; 最后利用分类依据对测试集上的光谱进行验证。 继承了双支持向量机的优势, 更重要的是, 在训练集上学习分类模型过程中, 不仅考虑有标记的训练样本, 也考虑部分未标记的样本。 一方面提高了学习效率, 另一方面得到更优的分类模型。 在SDSS DR8恒星光谱数据集上的比较实验表明, 与支持向量机SVM、 双支持向量机TSVM以及K近邻(KNN)等传统分类方法相比, 带无标签数据的双支持向量机TSVMUD具有更优的分类能力。 然而, 该方法亦存在一定的局限性, 其中一大难题是其无法处理海量光谱数据。 该工作将借鉴海量数据随机采样思想, 利用大数据处理技术, 来对所提方法在大数据环境下的适应性展开进一步研究。
恒星光谱 智能分类 双支持向量机 无标签数据 Stellar spectra Intelligent classification Twin support vector machine Unlabeled data 
光谱学与光谱分析
2019, 39(3): 948

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!