- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
近红外分析中模型的过拟合非拟合作用与实例解析.pdf
近红外分析中模型的过拟合/
非拟合作用与实例解析
扬曙明于宏侠
(中国农业科学院农业质量标准与检测技术研究所,北京100081)
摘要通过已知样品的N1R光谱和待测成分,建立数学关系的定标工作,是决定近红外
光谱分析成功与否的关键。本文研究定标过程中的模型过拟合和非拟合现象。以一个139个整柱
小麦样品的蛋白质分析为例。利用前5十PCR因子来重建NIRS光谱作为无噪声工,定义无噪声
y变量。通过光谱比较构建独立检验系。结果显示:主成分引_赘超过5时,定标模型出现过拟合
现象,超过8时显著提高。独立检验系或内部检验样品能选择最佳主成分因子,避免模型过拟
合。过拟合时,模型回归系教图更加尖锐。模型非拟合主要来自于非线性程度、超出待测含量
范圈、x变量噪声和y变量噪声等四个方面,y变量噪声产生的非拟台作用显得更突出。
关键词近红外光谱;过拟合;模型
所谓模型的过拟合现象是指定标样品中近红外分析结果与实际结果一致(拟合),而在预
测未知样品时,近红外预测结果与实际结果相差很大。
在应用MRS对于复杂背景的农产品、食品等进行定量分析时,定标比较复杂,这需要
有代表性、根据经验选择的数据和适合的定标方法。建立定标模型是要在一个小样本的基础
上获得可适应于大群样品或整群样品的模型。因此,关键之一是如何得到一个好得、有代表
性的定标用数据?要解决这个问题,我们必须确定:要测定的参数、哪些实验因子是可以控
制的、需要多少重复等。另外,还必须决定要包含多少随机选择的数据,以覆盖那些不可控
制的因子。在MRS分析中,我们常会感到得不到那些可控制参数的信息。这是随机选择是
惟一有效的方法。这样的定标称为随机或天然定标,它与可控制定标是相对的。
对于使用少滤光片的近红外分析仪,由于仪器很多的近红外光谱非连续,其波长点少。
通常这些波长点都是仪器制造前确定的,在这些波长点处光谱读数对应于仪器所能测定成分
含量变化有较大的反映。因此,仪器中光谱读数的波长点就是回归校正模型中的波长点,也
就是说,近红外分析模型的主要问题是少拟合,过拟合现象不易出现。
多点光谱,每一个样品可获得几百个不同波长点处的吸光值。这样,在建立定标模型时。可
使用更多的光谱信息,利用更多的数学参数,但同时也容易产生模型的过拟合现象。例如在
linear
使用逐步回归方法(stepwlse
mutiple
点的回归校正,误差最小的波长点的光谱读数就为多线性回归模型中的第一独立变量;以此
为第一变量,进行二元回归模型的比较,误差最小的波长所对应的光谱读数则为第二独立变
量;以此类推获得第三……独立变量。为了获得更好的定标结果,这些独立变量的选择通常
作者简介:杨曙明,男,1963年出生,研究员,博士生导师。E-fflail:mmyang@fosscona∞o
283
比较多,但是其中有很多波长点处,光谱读数的变化是高度相关的,这样就产生了所渭的模
型过适应性。
1定标样品的结构
1.1定标样品设计
在目前的定标工作中,定标设计要保证充分地描述仪器的信号与分析物质问的相关性,
和来自于不可避免的仪器噪声等产生的干扰作用。好的定标设计仅使用有用的信息,避免一
些无用或不必要的分析,这样就可节约大量的时问和经费投入。
在定标设计中要考虑三个主要方面:(:1)覆盖系统变异因素,包括仪器的干扰因子。使
其可模型化;(2)尽量减少各种随机噪声的作用;(3)待测成分的浓度范围。
所幸的是,异常的干扰作用可根据异常的主成分分析(PCA)得分或异常的光谱(工)残差
的分析而辨别出来。为了避免对定标模型频繁的升级工作,可在定标开始的设计中增加干涉
因子的类型。经过增加PLS或PCR中一些额外因子,x和l,问的部分非线性成分,可通过
线性或双线性模型而使之模型化,这样的线性或双线性模型有较好的预测能力。但是,所增
加的额外因子数量必须恰当,否则,会产生模型的过拟合作用。
因为近红外光谱分析中,所建立的定标模型是依赖于所用的定标样品的,因此,定标模
型的预测能力与定标样品类型高度相关.即使对
文档评论(0)