- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
近红外光谱建模中的化学计量学方法研究.pdf
近红外光谱建模中的化学计量学方法研究
邵学广陈达李艳坤
(南开大学化学系,天津300071)
摘要近红外光谱(NIR)法以其快速、简便、无损等特点.在复杂样品分析及工农业生产
中得到了广泛应用。但由于近红外光谱吸收较弱、吸收峰严重重叠.近红外光谱分析中的化学
计量学技术研究具有非常重要的意义。本文针对实际植物样品的分析,探讨了近红外光谱的数
据预处理方法和建模方法,包括基于小波变换的数据压缩和背景扣除技术、基于变量信息的变
量筛选方法以及基于样本和变量双权重的变量选择和奇异样本检测方法。同时.对支持向量机、
共识建模策略等建模方法也进行了研究。
关键词近红外光谱;化学计量学;数据预处理;建模方法
近年来,近红外光谱(Nm)法以其快速、简便、无损等特点L10J,在复杂样品化学成分
分析及工农业生产分析中占有重要地位。但是近红外光谱产生于分子振动,吸收谱峰较弱,
吸收峰严重重叠,且多组分复杂样品的近红外光谱往往不是各组分光谱的简单叠加,必须借
助化学计量学技术才能进行定性定量分析。因此,化学计量学方法已成为近红外光谱分析中
的研究热点。各种多元校正技术,如多元线性回归(MⅡt)bJ、主成分回归(I,CR)E?、偏最小
二乘回归(PLS)【5J、人工神经网络(ANN)[6』等方法在近红外光谱分析中得到广泛应用。同时,
近红外光谱通常由数百或数千数据点构成,造成建模时波长点数远远多于样本个数,从而易
使模型具有随机性,有效的变量筛选、滤噪、数据压缩等数据预处理方法研究也具有非常重
要的意义。此外,由于在近红外光谱的建模中往往采用大量的校正集样本,样本的代表性、
均匀性也会影响模型的质量,因此校正集样本设计、筛选、奇异样本的检测等技术研究也是
近红外光谱分析中的重要研究内容。
1数据预处理方法研究
1.1小波变换法用于NIR光谱的数据压缩和背景扣除
小渡变换是近几年发展起来的新型信号处理手段,已在很多科学领域中得到成功地应
用[7-9]。从小波变换的原理可知,对近红外光谱数据进行小波压缩后,可采用小波系数代替
原始数据,再利用多元校正方法建立模型。取较大的小波系数组成新的数据矩阵代替原始数
据矩阵,可以大大降低数据量,既能有效地去除噪音,叉能提高多元校正的速度。同时,采
用较少的变量建模,有利于减少模型的随机性并提高预测精度。因此,我们可以首先采用小
波变换对近红外光谱数据进行压缩,然后利用偏最小二乘法进行建模和预测研究。
本文对72个烟草样品的数据进行了处理,并预测了20个样品的常规成分(总糖、总植
作者简介:郅学广,男,1963年出生,博士,教授,博士生导师。主要从事化学汁量学算法与应用研究工作。£一
mail:Ⅺ^ao@r,mkai.幽.∞。
250
物碱、总氮、总氯和蛋白质),得到了满意的结果。表1为wr—PL$方法与基于全谱的常规
PLs方法的计算结果比较。 .
NIR光谱中的背景信号被认为是引起预测误差和模型不稳定的原因之一。研究表明,小
波变换还是导数计算并用于背景扣除的良好工具【101“J。图1分别为采用连续小波变换方法
扣除背景前后50个烟草样品的N1R谱图。可以看出,该方法可以比较理想地扣除烟草样品
NIR光谱中的背景信息,提高模型的稳健性和预测能力。表2为几种方法扣除背景后预测结
果的比较。
表1 PLS与wr—PLS预测结果的比较
常规成分 数据点/个 计算时间/10。2- 平均相对误差(E)o/% 相关系数詹
P嵋
一总糖 5001 5.8 2 79 0.935
植物碱 500l 2 2 4.91 0 926
总氮 500l 6 0 3.35 0 978
总氯 500I 7 2 5 70 0 970
蛋白质 500l 4 1 3.52 0 960
’盯一PlS
总糖 76 0.25 1 83 0 975
植物碱 111 0 30 4 38 0 950
总氯 333 0.25 3.39 0 979
总氯 500 0.55 5.巧 O 971
蛋白质 90 0 30 2.94 0.976
(D E(%)={x(。耋J_丝寻俎)×100%。式中,n为样本个数;n为第f个样奉的实际测量值;血为第i个样本的预
测值。
乏
i
宦I
图1背景扣除前(左)后(右)NIR的比较
裹2几种数据处理方法预测结果的比较
植物碱 总糖 总氨 挥发碱
方法
RMSEP 丑 尼M卿 矗 RMsEP 眉 向啪疆P R
cwr o.162 o.984 1 215 o 948 o.098 0.981 o.036 0.986
DWT o.2皓 0.钾2 1 2∞ o.948 o.120 o.972 0.嘶 o 986
数值求导 o.319 o.929 1.360 o 935 o.152 o.959 O.058 o.963
原始数据 o 440 o
文档评论(0)