作者单位
摘要
辽宁科技大学理学院, 辽宁 鞍山 114051
恒星光谱分类是恒星光谱分析的重要工作之一。 我国大型巡天项目LAMOST能够获得海量的恒星光谱数据, 为了对海量恒星光谱数据进行高效分类, 特别是对恒星光谱子型数据进行分类, 需要研究快速有效的恒星光谱自动分类算法。 提出一种基于Transformer特征提取的混合深度学习算法Bert+svm(简记为Besvm)实现A型恒星光谱子型的自动分类。 该算法将A型恒星光谱26个线指数作为输入特征, 应用Bert模型对26个线指数进行更深层次的学习, 通过学习26个线指数的内在关联, 进而提取到更有利于A型恒星光谱子型分类的特征。 提取好的新特征被输入到分类器算法支持向量机(简记为SVM)中, 进而对A型恒星光谱的三个子型A1、 A2和A3进行自动分类。 此前, SVM算法在恒星光谱分类任务中已经有过应用, 一些衍生的SVM算法在恒星光谱分类任务中也有较高的分类正确率。 相比从前应用到恒星光谱分类任务的SVM算法, 我们的混合深度学习算法受数据的信噪比影响较小, 使用低信噪比数据也能有较高的分类正确率, 并且所用数据量较少。 通过五组实验验证了该算法的有效性和优越性: 实验1用来对比选择优秀的核函数, 通过光谱数据的匹配实验, 最终选择了径向基核函数RBF; 实验2对比了Besvm算法和其他四种传统优秀算法的性能指标, 验证了Besvm算法的优越性; 实验3用来检验Besvm算法的稳定性; 实验4分析了数据量对Besvm算法的影响; 实验5分析了不同信噪比数据对Besvm算法分类正确率的影响。 综合实验结果分析表明, 提出的混合深度学习算法Besvm在规模较小且信噪比低的数据集上仍能保持较高的分类正确率。 Besvm总体分类错误率在0.01以下, 远低于经典传统机器学习算法LDA算法, BP神经网络算法, SVM算法和Xgboost算法的分类错误率0.7, 0.66, 0.65, 0.36.需要说明的是BP神经网络算法的分类正确率过于受限于隐层神经元的个数。
光谱分类 线指数 Transformer Transformer Bert Bert SVM SVM Spectral classification Line index LAMOST LAMOST 
光谱学与光谱分析
2023, 43(5): 1575
作者单位
摘要
太原科技大学计算机科学与技术学院, 山西 太原 030024
类星体是人类所观测到的最遥远天体, 对于了解早期宇宙的演化具有重要科学意义。 由于类星体距离地球较远, 其红移一般较大, 导致在光学观测窗口中只有很少的特征(发射线), 且难以识别。 类星体光谱的异常特征提取与分析可对未知类星体的识别, 提供有效的判别依据。 离群检测作为数据挖掘领域的一个主要研究内容, 旨在发现那些稀有、 特殊数据对象及异常特征, 可作为从海量类星体光谱数据中, 发现特殊、 未知类星体的一种有效途径和手段。 Spark作为新一代大数据分布式处理框架, 可为海量天体光谱的有效分析和处理, 提供一个高效且可靠的并行编程平台。 本文充分利用集群系统和Spark编程模型的强大数据处理能力, 提出一种基于稀疏子空间的类星体光谱异常特征并行提取与分析方法, 其工作由三个模块组成, 即类星体光谱特征约减、 类星体光谱的稀疏子空间构造和搜索、 类星体光谱异常特征提取并行算法设计与分析。 类星体光谱特征约减模块, 通过属性相关性分析来识别呈现聚类结构的类星体光谱特征线, 这些特征线通常会聚集在稠密区域且对类星体光谱异常特征检测毫无意义。 光谱特征约减旨在运行异常特征检测算法之前剪枝类星体光谱的冗余特征线, 缩小光谱数据检测范围。 类星体光谱的稀疏子空间构造和搜索模块, 通过设定的稀疏系数阈值来测量类星体光谱的子空间密度, 并采用粒子群优化方法作为稀疏子空间的搜索策略, 从而快速、 高效地获取类星体的异常特征。 在第三个模块中, 提出了一种MapReduce框架下的类星体光谱异常数据并行检测算法, 该算法由并行化数据约减策略、 稀疏子空间并行搜索技术两个MapReduce构成, 达到适应海量光谱数据的处理目标。 最后对检测出的部分类星体异常特征进行了理论分析、 测量及人眼证认, 充分说明稀疏子空间可为识别特殊、 未知类星体候选源, 提供有效支持和有力证据。
类星体 稀疏子空间 郭守敬望远镜(LAMOST) 光谱分析 Quasi-stellar object Sparse subspace LAMOST Spectral analysis 
光谱学与光谱分析
2021, 41(4): 1086
作者单位
摘要
太原科技大学计算机科学与技术学院, 山西 太原 030024
LAMOST一期巡天成功获取河外星系光谱超过150 000条, 大样本光谱数据为探索奇异、 稀有的天体从而完善现有的天体演化理论提供了必要的数据条件; 而先进的信息技术为从海量的数据中挖掘这些珍稀样本提供了有效途径。 针对采用基于DoPS的数据挖掘方法, 从LAMOST DR5星系光谱数据获得的离群数据挖掘结果中, 呈现出疑似P-Cygni轮廓特征的光谱J152238.11+333136.1进行了深入讨论。 首先针对该光谱的基本信息、 疑似P-Cygni轮廓特征以及相应的离群数据挖掘方法进行了简要表述, 光谱在Hβ和[OⅢ]λ4860处呈现P-Cygni轮廓, 在NeⅢλ3869和HeⅠλ5874处呈现反P-Cygni轮廓; 其次, 对该特征的真实性及其生成机制从以下4个角度展开讨论。 (1)交叉同源观测。 Sloan巡天2004年(相差11年)的同源观测, 其光谱上并未呈现对应的特征, 据推测可能是正在进行的演化活动或者光纤定位误差所致; (2)通过分析光谱质量、 减天光残差等方法, 分析P-Cygni特征是否为观测或数据处理所致。 NeⅢλ3869和HeⅠλ5874处呈现反P-Cygni轮廓可信度较低; 同时, 通过比较目标光谱与超级天光, 以及相邻光纤观测到的光谱在对应波长处的光谱特征, 说明存在 P-Cygni轮廓为减天光过程导致的可能性; (3)光谱子型差异。 IRAS和WISE等近红外同源观测, 显示其为Seyfert 2型星系, 光学波段发射线强比[NⅡ]/Hα, [OⅢ]/Hβ显示其为HⅡ区, 结合光学、 红外测光图像特征, 推测目标可能是两个星系进行并合活动; (4)从导致P-Cygni轮廓的物理机制的角度, 分析了由星系并合触发外流、 由恒星形成(爆发)电离气体触发的外流以及由Wolf-Rayet特征星系的超星风等原因引起的可能性。
P-Cygni轮廓 郭守敬望远镜(LAMOST) 离群特征 P-Cygni profiles Outflows Outflows LAMOST Outlier characteristics 
光谱学与光谱分析
2020, 40(4): 1304
汪梦欣 1,2,*罗阿理 1,2
作者单位
摘要
1 中国科学院光学天文重点实验室(国家天文台), 北京 100101
2 中国科学院大学, 北京 100049
星系并合会产生不同尺度距离的星系对甚至双活动星系核 , 同时在过程中会触发星暴以及超大质量黑洞的活动。 在光谱上, 当两个星系并合到kpc尺度时, 其两个核的相互绕转在总光谱上会表现出窄线双峰谱线轮廓。 以这个观测特性为起点, 从郭守敬望远镜巡天的第四次释放数据(LAMOST DR4)中系统的搜寻带有窄发射线双峰特征的双AGN候选体。 AGN的发射线光谱轮廓由发射线的若干种不同的动力学成分构成, 主要可以分为三类, 窄线成分(Hβ, [OⅢ], Hα and [NⅡ]), [OⅢ]的线翼、 以及宽的Balmer发射线。 基于LAMOST DR4河外光谱数据, 应用了一套搜寻流程, 在初始筛选(涉及到发射线的信噪比、 等值宽度和红移)及目视检查挑选之后, 通过建立的多高斯拟合模型挑选出在发射线的流量、 半高全宽、 窄线双峰之间速度分离程度等一系列参数上符合我们限制要求的样本, 并借助于Baldwin-Phillips-Terlevich (BPT) 图来鉴别每个成分的来源, 确定出了28个双AGN候选体。 为了获取更准确的星族成分并发现这类双AGN候选体样本的共有特性, 对28个双AGN候选体的光谱流量用一个低阶多项式重新进行了修正并采用传统的统一插值和中值方法对其进行合并得到一条高信噪比光谱, 并以目前已有的来源于LAMOST星系光谱数据的Ⅱ型AGN(单AGN)的复合光谱作为对照样本, 采用STARLIGHT软件分别拟合了合并的双AGN和对照的单AGN的光学光谱中的吸收线和连续谱。 通过研究它们的星族特性及两者间的异同, 发现与单AGN复合谱相比, 双AGN候选体样本的合并谱具有更多中等年龄及老年星族的贡献, 反映出更剧烈的中心黑洞。 在金属丰度方面, 单AGN的主导星族为太阳金属丰度的星族Z⊙, 而双AGN候选体合并谱中贡献较多的星族为亚太阳金属丰度星族0.2 Z⊙和富金属丰度星族2.5 Z⊙, 表现出了差异性特征, 也预示着这类样本中恒星形成历史更加复杂, 呈现出了多样化。 在幂律谱成分贡献方面在单、 双AGN中老年星族都贡献了其大部分质量, 但单AGN复合谱中幂律成分占比为8.2%, 明显高于双AGN候选体合并谱中幂律成分的贡献。
双活动星系核 光谱合成 星族分析 LAMOST LAMOST Dual AGNs Spectral synthesis Stellar population analysis 
光谱学与光谱分析
2020, 40(1): 290
作者单位
摘要
1 中国科学院国家天文台光学天文重点实验室, 北京 100101
2 中国科学院大学, 北京 100049
恒星光谱分类是研究恒星的基础性工作之一, 常用的光谱分类是基于20世纪70年代Morgan和Keenan建立起来的并逐步完善的MK分类系统。 然而基于MK规则的交互式决策分类系统对处理海量天文光谱数据存在着一定的困难。 目前光谱巡天一般采用的自动化分类则是模版匹配方法而忽略对谱线特征的测量。 怎样自动、 客观地提取海量光谱中的分类特征并应用这些特征进行分类可以对天体的物理化学性质的统计分析至关重要。 针对此问题, 通过机器学习和计算光谱的谱线指数结合的方法, 提取光谱特征, 并通过大数据分析定量地确定对光谱特征谱线的分类判据(数值化), 确定每一类光谱具有物理意义的特征谱线的强度分布。 首先对LAMOST DR4恒星光谱测量其谱线指数作为输入, 光谱的分类标记采用官方发布的分类结果。 使用XGBoost算法进行自动分类及特征排序, 从而获得已知或未知的对于分类决策最为敏感的谱线。 首先, 选取高信噪比(S/N>30)、 被LAMOST标记为B, A, F和M的恒星光谱数据, 总计约414万个。 然后, 对光谱数据计算谱线指数从而使其得到降维处理, 过滤冗余信息。 其次, 将处理后的恒星光谱数据随机划分为训练集和测试集, 通过适当调整算法参数, 用训练集得到所需要的分类决策树模型, 用测试集测试其稳定性和可用性, 以防止出现过拟合, 同时使用算法自带函数进行提取分类特征。 最后, 输出并整理实验中算法所得的决策树模型, 并挑选其概率比较大的分支作为最终的决策树模型。 通过实验, 可以发现在固定参数下, XGBoost所得的模型有一定的自适应性, 较少受数据集影响, 总体准确率可达88.5%; 同时其所输出的分类决策树与已知的特征较为吻合, 而且可以获得基于大数据的、 数值化的特征谱线对应分类的范围, 为完善基于特征的分类提供定量的规则。
光谱分类 线指数 决策树 Spectral classification Line index XGBoost XGBoost Decision tree LAMOST LAMOST 
光谱学与光谱分析
2019, 39(10): 3292
作者单位
摘要
1 山东大学(威海)数学与统计学院, 山东 威海 264209
2 山东大学(威海)机电与信息工程学院, 山东 威海 264209
主要研究了一种新的基于ELM算法的中低分辨光谱的恒星Mg元素丰度估计方法。 大科学工程郭守敬望远镜(LAMOST)为我们提供了海量的中低分辨率的光谱, 确定这些光谱的Mg元素丰度将有助于我们深入了解银河系的形成历史和演化过程。 目前从中低分辨率光谱中确定Mg元素丰度的方法主要是模板匹配法, 但该方法算法复杂, 优化参数较为困难且对噪声敏感, 因此有必要研究新的方法。 实验结果显示, ELM算法对MILES光谱的Mg丰度的估计的精度为0.009 9(0.15)dex, 而对信噪比大于50的LAMOST光谱的精度为0.002 7(0.11)dex。 通过与其他算法进行对比, 证实ELM算法是一种能精确估计中低分辨率光谱的Mg元素丰度的算法, 能够应用于LAMOST后期的光谱数据中。
ELM算法 Mg元素丰度 LAMOST光谱 MILES光谱 ELM algorithm Abundance LAMOST spectra MILES spectra 
光谱学与光谱分析
2019, 39(10): 3288
作者单位
摘要
1 齐齐哈尔大学计算机与控制工程学院, 黑龙江 齐齐哈尔 161006
2 梧州学院大数据与软件工程学院, 广西 梧州 543002
天文光谱线指数数据能够较好地保留着恒星的物理特征信息, 为此借助线指数特征数据构建多参数模型, 有利于更好地回归分析数据的共变关系及谱线的内在规律。 世界上光谱获取率最高的施密特天文望远镜LAMOST发布的观测光谱都已经过标记, 利用天文可视化工具分析这些标记的恒星光谱线指数会产生预测因子自相关, 多元线性回归时因变量存在共线性, 导致方差较大、得到最小二乘回归系数不稳定, 虽不影响使用回归的有效性, 但较难从回归方程中得到独立预测因子的评估系数。 利用LAMOST巡天光谱数据中A型恒星Lick线指数为数据源, 选取有效温度Teff为7 000~8 500 K, 取信噪比大于50的光谱特征值实现回归分析恒星参数Teff值, 经箱线图呈现DR5星表中, A型光谱86 097条具备Teff值大样本光谱数据的整体分布, 统计分析26种线指数的特征值后, 选取分布相似且带宽为12 的kp12, halpha12和hgamma12字段, 减少解释线指数变量的数目, 优化冗余变量方差膨胀因子(VIF)系数。 实验选取两两变量间观测数据集, 局部拟合回归散点、 同样的数据源使用散点图的总体轮廓生成高密度散点图, 利用色差透明性突出显示数据密集区域。 结果表明多元线性回归和岭回归算法都能从低分辨率光谱中确定A型恒星的有效温度, 但经过共线性数据分析有偏估计实验, 使用岭回归分析寻找最佳模型, 能更准确地确定恒星有效温度, 进而得到预测A型恒星有效温度及谱线回归特性。
恒星光谱 岭回归 线性模型 Lick线指数 Stellar spectra LAMOST LAMOST (Large sky area multi-object fiber spectros Ridge regression Linear model Lick line index 
光谱学与光谱分析
2019, 39(8): 2624
作者单位
摘要
1 太原科技大学计算机科学与技术学院, 山西 太原 030024
2 中国科学院国家天文台光学天文重点实验室, 北京 100012
低分辨率天体光谱中呈现的双峰发射线轮廓可能反映着比较珍稀的物理现象, 如双活动星系核(AGNs)、 双超大质量黑洞(SMBH)、 喷流云与窄线区的相互作用, 也可能是光谱处理过程产生的低质量特征线。 双峰发射线轮廓一般由2个或2个以上的波峰构成, 对该特征进行提取并分析, 可作为双AGN、 星系对、 双黑洞等稀有天体更有效的搜寻依据, 从而有助于更深入地研究星系乃至宇宙的形成与演化。 提出一种新的基于相关子空间的双峰发射线特征提取与分析方法, 主要工作分为以下三部分: 首先利用稀疏差异因子δ度量双峰发射线光谱中属性差异程度, 利用KNN方法约束参与稀疏差异因子计算的光谱范围, 在此基础上, 针对LAMOST低分辨率光谱给出基于相关子空间的特征提取方法; 其次, 为了验证稀疏差异因子σ以及KNN的输入参数k对双峰发射线光谱的适应性, 选择LAMOST双峰发射线光谱样本及普通星系光谱数据, 红移范围z<0.3(确保Hα, Hβ, [OⅢ]λλ4 959, 5 007, [NⅡ]λλ6 548, 6 584, [SⅡ]λλ6 717, 6 731等发射线落在LAMOST波长覆盖范围), 获得训练集光谱总数332+332(正负样本)条, 并借助人眼检查分析该方法中的两个参数: k和δ阈值α对结果的影响, 实验表明, 当k=18, α=0.6时, 相关属性分布较密集且稀疏点较少, 结果比较理想; 最后, 对332条双峰发射线光谱特征子空间所在的波长区间、 双峰红/蓝移间隔、 双峰线强比等进行了理论分析、 测量及人眼认证的基础上, 给出了基于相关子空间的双峰发射线特征表述。 此外, 从双峰特征子空间上不同的发射线激发机制([OⅢ]/[NⅡ]/[SⅡ]等禁线、 Hα、 Hβ等氢线)及相关特征子空间上线强关系等角度, 对样本中双峰轮廓进行了分析。
双峰发射线 相关子空间 郭守敬望远镜(LAMOST) 光谱分析 Double-peaked emission lines Relevant subspace LAMOST Spectral analysis 
光谱学与光谱分析
2019, 39(6): 1677
作者单位
摘要
1 哈尔滨工程大学理学院, 纤维集成光学教育部重点实验室, 黑龙江 哈尔滨 150001
2 齐齐哈尔大学机电工程学院, 黑龙江 齐齐哈尔 161006
3 中国科学院光学天文重点实验室(国家天文台), 北京 100012
随着天文大数据不断积累, 我国大天区多目标光纤光谱望远镜LAMOST已完成6年的大规模巡天观测, 获得DR5数据集已达到900多万条光谱, 其中含有观测比例较低的早型恒星光谱, 具备重要的研究价值。 利用准确的恒星分类模板库可提升恒星的分类精度与可靠性, 由于LAMOST第一年的巡天光谱中并没有完整覆盖B型恒星包含的所有子类型, 造成后续观测数据分类的子类型范围受限。 依据LAMOST已发布DR5数据中B型恒星光谱为研究对象, 选取ELODIE发布的B型恒星实测光谱模板库来检测LAMOST在用的分类光谱。 首先完成ELODIE发布37条B型光谱模板的相关性分析, 去掉相关性弱的三条光谱后, 筛选出ELODIE 34条B型恒星实测模板作为中心, 通过计算LAMOST DR5发布的绝大多数被标记为B6型(7 662条)和B9型(3 969条)实测光谱的马氏距离, 经有监督聚类LAMOST早型恒星光谱数据, 标记13个子类型在涵盖B2—B9子类的34条ELODIE光谱模板中的分布。 经线性分析判别每条谱线子类型的类内距离, 确保波长覆盖范围和分辨率与LAMOST数据完全一致, 去掉距离数值偏差较大的数据, 计算相应子类的平均谱线, 得到LAMOST源于DR5观测数据早型B型恒星的13条子类型光谱分类模板, 为后期完善模板提供较好的参考性。
马氏距离 早型恒星 光谱模板 Mahalanobis distance Early-type stellar Spectrum template LAMOST LAMOST (large sky area multi-object fiber spectros ELODIE ELODIE 
光谱学与光谱分析
2019, 39(5): 1618
作者单位
摘要
1 太原科技大学计算机科学与技术学院, 山西 太原 030024
2 中国科学院国家天文台光学天文重点实验室, 北京 100012
天光背景扣除是LAMOST 1D光谱数据处理中重要的环节, 其扣除好坏直接影响光谱产品质量, 因此构造理想的超级天光光谱模型具有重要的意义。 通常超级天光是由与目标天体同时观测的天光光纤光谱构造而成, 同一区域的天光背景可能随着不同的观测时刻有着规律性的变化特征(如月相变化), 如果能充分分析并利用这些特征, 可有效校正超级天光模型, 从而提高减天光效果。 轨迹聚类方法是一种分析目标随时、 空变化特征的有效工具, 针对LAMOST天光光谱中可能存在的变化规律, 给出一种基于轨迹聚类的天光光谱特征分析方法。 主要分以下三部分: 首先是天光光谱的时序化描述。 LAMOST pipeline采用且提供了每个观测天体的即时超级天光光谱, 为了获取特定天区背景天光的光变特征, 需选择天光光纤光谱以及扣除目标天体光谱的背景光谱, 以5°视场(LAMOST望远镜视场)为单位, 按观测日期MJD均匀分组, 从而对特定区域的天光光谱进行了时序化表征; 其次给出基于密度的天光光谱数据聚类算法STK-means。 为解决随机参数导致收敛及聚类效果不理想的问题, 在分析天光光谱时序数据特征的基础上, 给出基于密度的相似性度量公式, 并作为传统k-means聚类的初始参数选择依据, 从而给出基于密度的天光光谱数据聚类算法STK-means; 最后进行实验分析。 实验验证了该方法的正确性和有效性以及不同初始参数K值的选择对聚类结果的影响。 在此基础上, 利用STK-means聚类方法, 对LAMOST第一期巡天中一个完备小天区的天光光谱时序数据进行了轨迹特征分析, 结果表明, 除个别光谱质量较差或常说异常外, 该特定区域的天光背景以农历每月十五、 十六为中心向两边呈对称分布, 反映了该区域观测过程中受月相的影响变化情况, 该特征经量化后可为校正超级天光模型提供一种有效途径。 同时, 由于时序化描述过程中均匀采样的要求, 该方法可适用于反银心、 盘、 晕等高天体数密度区域, 而对于高银纬低数密度区域则需要更长时间的巡天观测。 此外, 该方法还可有效发现特定区域的离群(异常)天光光谱, 为天文学家进一步分析提供珍稀样本。
天光背景 轨迹聚类 多目标光纤光谱 郭守敬望远镜(LAMOST Sky background Trajectory clustering Multi-object fibre spectroscopy LAMOST 
光谱学与光谱分析
2019, 39(4): 1301

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!