光谱学与光谱分析, 2012, 32 (9): 2399, 网络出版: 2012-09-26  

并行MapReduce PLS算法及其在光谱分析中的应用

Parallel PLS Aigorithm Using MapReduce and Its Aplication in Spectral Modeling
作者单位
1 桂林电子科技大学电子工程与自动化学院, 广西 桂林 541004
2 桂林电子科技大学计算机科学与工程学院, 广西 桂林 541004
3 清华大学分析中心, 北京 100084
摘要
偏最小二乘(PLS)算法是常用的光谱建模算法, 然而对于海量光谱处理情形, 在单台计算机上建模及优化时间开销很大。 基于MapReduce编程模式, 提出了并行MapReduce PLS回归算法, 包括并行数据标准化和并行主成分提取两个过程。 在多台普通计算机上搭建Hadoop云计算集群平台, 以近红外光谱处理为例, 开展了算法验证实验。 实验结果表明, 基于MapReduce编程模式的并行PLS算法对海量近红外光谱数据集进行回归建模时, 能有效提高建模速度, 随计算机台数的增多可得到接近线性的加速比, 并具有良好的扩展性。
Abstract
Partial least squares (PLS) has been widely used in spectral analysis and modeling, and it is computation-intensive and time-demanding when dealing with massive data. To solve this problem effectively, a novel parallel PLS using MapReduce is proposed, which consists of two procedures, the parallelization of data standardizing and the parallelization of principal component computing. Using NIR spectral modeling as an example, experiments were conducted on a Hadoop cluster, which is a collection of ordinary computers. The experimental results demonstrate that the parallel PLS algorithm proposed can handle massive spectra, can significantly cut down the modeling time, and gains a basically linear speedup, and can be easily scaled up.
参考文献

[1] Zhang Z M, Liang Y Z, Xu Q S. Chemometrics and Intelligent Laboratory Systems, 2009, 96(1): 94.

[2] SHEN Yong-xiang, YANG Hui-hua, HE Qian, et al(申永祥, 杨辉华, 何倩, 等). Control and Automation Publication Group(微计算机信息), 2010, 26(9): 208.

[3] Dean J, Ghemawat S. Google, Inc., 2004.

[4] Paradies M. Datenbank Spektrum, 2011, 11: 47.

[5] Yang Lai, Shi Zhong-zhi. International Federation for Information Processing, 2010, 213.

[6] Pham D P, Yuan S M, Jou E. LNSC6104, 2010. 662.

[7] Chu C T, Kim S K, Lin Y A, et al. NIPS, 2006. 281.

[8] http://mahout.apache.org/2011.

[9] JIANG Xiao-ping, LI Cheng-hua, XIANG Wen, et al(江小平, 李成华, 向文, 等). Huazhang Univ. of Sci. & Tech.·Natural Science Edition(华中科技大学学报·自然科学版), 2011, (S1): 120.

[10] TAO Yong-cai, XUE Zheng-yuan, SHI Lei(陶永才, 薛正元, 石磊). Journal of Computer Aplications(计算机应用), 2011, 31(9): 2412.

[11] WANG Hui-wen, WU Zai-bin, MENG Jie(王惠文, 吴载斌, 孟洁). Partial Least-Squares Regression-Linear and Nonlinear Methods(偏最小二乘回归的线性与非线性方法). Beijing: National Defense Industry Press(北京: 国防工业出版社), 2006. 255.

[12] White T. Hadoop: The Definitive Guide. Beijing: Tsinghua University Press(北京: 清华大学出版社), 2011.

[13] XIE Chao, MAI Lian-dao, DU Zhi-hui, et al(谢超, 麦联叨, 都志辉, 等). Computer Engineering and Applications(计算机工程与应用). 2003: 66

杨辉华, 杜玲玲, 李灵巧, 唐天彪, 郭拓, 梁琼麟, 王义明, 罗国安. 并行MapReduce PLS算法及其在光谱分析中的应用[J]. 光谱学与光谱分析, 2012, 32(9): 2399. YANG Hui-hua, DU Ling-ling, LI Ling-qiao, TANG Tian-biao, GUO Tuo, LIANG Qiong-lin, WANG Yi-ming, LUO Guo-an. Parallel PLS Aigorithm Using MapReduce and Its Aplication in Spectral Modeling[J]. Spectroscopy and Spectral Analysis, 2012, 32(9): 2399.

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!