基于判定区间伸缩因子的决策融合算法研究
位置: 首页 >范文大全 > 公文范文 > 文章内容

基于判定区间伸缩因子的决策融合算法研究

2022-05-18 15:10:02 投稿作者:网友投稿 点击:

摘要:以近红外光谱分析技术为基础,结合化学计量学分析方法,对西湖龙井和普通龙井进行鉴别研究,提出一种基于判定区间伸缩因子决策融合的鉴别方法。该方法采用支持向量机(SVM)结合向后区间偏最小二乘法(BiPLS)进行决策融合,并引入判定区间伸缩因子对判定区间进行调节,找到最优判定区间。以西湖龙井和普通龙井样本为材料,采集样本的近红外光谱,使用二阶导数对原始光谱进行预处理,采用该方法建立分类模型,对西湖龙井和普通龙井进行分类。结果表明,对72份训练集样本和38份预测集样本进行分类,训练集样本和预测集样本分类的准确率均达到100%,证明该方法对西湖龙井和普通龙井能进行有效的分类鉴别。

关键词关键词:近红外光谱;伸缩因子;支持向量机;最小二乘法

中图分类号:TP312 文献标识码:A 文章编号:1672-7800(2016)004-0059-04

0引言

中国是茶树的源产地,是世界上最早种植和加工茶叶的国家,茶叶是世界上消费量最大的三大软饮料之一。随着社会进步和人们生活水平的提高,消费者对茶叶品质的要求也越来越高。

我国现行茶叶品质标准中,关于茶叶的感官品质都采用定性语言描述,消费者难以理解和应用,致使标准在交易定价中很难发挥作用,造成实施标准的缺失。普通消费者在购买茶叶时往往难辨良莠,听任一些不良茶商的信口胡言,以次充好,收购人员随意开价,致使茶叶加工厂或茶农的利益受损,长此以往也会抑制消费者需求[1]。因此,急需建立一种科学、量化、便捷的茶叶鉴别方法。

对茶叶进行分类鉴别的传统方法主要是感官评定法和化学方法。感官评定的结果易受人为因素和外界环境的干扰,评定结果存在较大的客观性;化学方法是通过茶叶物理、化学要素的测定,采用较简易的数据处理方法对所获得的测定数据进行分析,寻求内在规律,并以此来评定茶叶的品质。但此类方法耗时费力,推广难度大。近红外光谱(NIRS)分析具有快速、成本低以及结果重现性好等优点[2],是一种无损检测方法。研究表明,利用数学手段和计算机技术有效地提取近红外光谱的微弱信息,使得近红外光谱技术成为一种极具发展前途的技术,其已在石油化工、烟草、水果等领域中得到了应用,产生了一定的经济效益[3-6]。

在近红外光谱分析中,目前对茶叶进行识别分类的常用建模方法有偏最小二乘法(PLS)、K最近邻分类算法(KNN)、聚类方法(K-means)、线性判别分析(LDA)、簇类独立软模式法(SIMCA)、支持向量机(SVM)和人工神经网络法等。

周健[7]等以近红外光谱分析技术为基础,采用PLS、欧氏距离等方法的组合来实现茶叶特殊原料品种鉴别,对4种不同品种茶叶样本的原料品种进行识别,训练集样本的准确率为90.3%,预测集样本的准确率为83.5%。该研究为实现特殊品种茶叶鉴定以及成品茶的品种溯源提供了一种参考方法。陈全胜[8]等以碧螺春茶为研究对象,利用近红外光谱分析技术结合支持向量机模式识别原理建立碧螺春茶真伪鉴别模型,对训练集中的138个茶叶样本进行识别,准确率为93.48%,对90个独立样本组成的预测集样本进行识别,准确率为84.44%,表明基于支持向量机的近红外光谱鉴别名优茶真伪的方法是可行的。赵杰文[9]等采用近红外光谱结合主成分——马氏距离模式识别方法鉴别龙井、碧螺春、毛峰和铁观音4种中国名茶,模型对训练集样本和预测集样本的鉴别率分别达到了98.75%和95%。

本研究利用近红外光谱技术,获得西湖龙井和普通龙井的近红外光谱数据,结合向后区间偏最小二乘法[10]和支持向量机建立识别模型进行决策融合,通过调节区间伸缩因子动态改变判定区间,对西湖龙井和普通龙井进行识别,弥补传统方法的缺陷,提高识别的准确性和效率,为西湖龙井茶叶的真假鉴别提供了理论基础和依据,对推动茶叶市场规范化具有重要意义。

1材料与方法

1.1实验材料

本实验采用的所有样本均按照龙井茶加工工艺生产,包括杭州地区的西湖龙井样本57份、在超市购买的其它普通龙井样本53份。采用SPXY方法[11]将样本分为两部分,即抽取部分西湖龙井样本和普通龙井样本组成训练集用于建立识别模型,其中西湖龙井样本40份,普通龙井样本32份。剩下的样本组成预测集作为未知样本对识别模型进行验证。因此,样本集分为包含72个样本的训练集和包含38个样本的预测集。

1.2样品处理

在进行近红外光谱的采集前,所有样品均经过粉碎处理。称取20g左右的茶叶样品放入粉碎机粉碎约30s,然后经过筛子筛选后,准确称取10g作为近红外光谱的分析样品。

1.3近红外光谱采集

样品的近红外光谱采集实验仪器采用美国PerkinElmer公司生产的红外光谱仪,实验所设置的光谱范围为7300~5500cm-1,扫描32次,分辨率2cm-1,波数间隔为0.5cm-1。采用光谱仪的随机软件SpectrumVersion10.4.1采集光谱数据,实验室内温度保持在25℃左右,湿度保持基本不变(低于60%)。每个样本平行采集3次,取其平均光谱作为该样本的原始光谱。为保证测量环境和人工操作的一致性,测量过程中每隔10个样品进行一次背景扫描以消除漂移。原始光谱如图1所示。

1.4光谱处理

考虑不同光谱预处理方法对模型性能的影响,本文应用原始光谱(RAW)、多元散射校正(MSC)、标准正态变量变换(SNV)、SNV+去趋势方法(DT)、Savitzky-Golay卷积平滑(S-G)、移动窗口平滑(SW)、一阶(1-Dr)及二阶(2-Dr)求导等方法对光谱作预处理,使用SVM建立龙井分类模型,选择径向基函数[12](RBF,RadialBasisFunction)作为核函数,其识别结果如表1所示。由此可见,SVM结合二阶求导预处理建立分类模型效果较好,训练集的准确率为97.2%,预测集的准确率为97.4%。图2为原始光谱经过二阶求导处理后的光谱图,可以看出,处理后的光谱消除了背景干扰,吸收峰增多并且更加明显,更有利于光谱分析。本文后续实验均以二阶求导预处理后的光谱数据为基础。

1.5BiPLS方法

本文使用的向后区间偏最小二乘法(BiPLS)是文献[13]中所描述的一种研究算法,该算法是对LarsNrgaard于2000年提出的一种波长筛选法的改进和发展[10]。算法流程如下:①将整个光谱区域划分为k个等宽的波段;②依次去除一段,在剩余的(k-1)段上进行偏最小二乘回归建模,得到k个局部回归模型;③以交互验证均方根误差RMSECV值衡量各模型精度,取精度最高的局部模型所去除的波段为第一去除波段,并取该局部模型为第一个子模型;④在余下的(k-1)个波段中依次去除一段,用剩余的(k-2)段进行PLS建模,得到(k-1)个局部模型,取RMSECV值最低的局部模型所对应的去除段为第二去除波段,并取该局部模型为第二个子模型。重复上述过程,直至剩余一个波段;⑤考察第②-④步中每个子模型的RMSECV值,在所有子模型中选出性能最佳者(RMSECV最小),其所对应的区间组合即为最佳组合。

1.6支持向量机(SVM)

支持向量机(SupportVectorMachine,SVM)是由Vapnik等提出的一种基于统计学习理论和结构风险最小化原则的机器学习技术[14-15]。SVM是一种新的模式识别方法,它兼顾训练误差和泛化能力,在解决小样本、非线性、高维数、局部极小值等模式识别问题中表现出许多特有优势[16-17]。其目的是寻找一个最优的分类超平面,对于线性可分问题,此分类超平面不但能够将所有训练样本正确分类,而且能使训练样本中离分界面最近的点到分界面的距离(分类间隔)最大。对于一般的线性分类,设训练集为T={(x1,y1),(x2,y2),…,(xn,yn)}∈(Rd×Y)n,其中xi∈Rd,yi∈Y={1,-1},i=1,2,…,n,则最优分类超平面可以通过求解一个优化问题得到。对于非线性分类问题,SVM通过一个非线性映射φ将输入空间变换到一个高维的特征空间中,来求取最优分类超平面。引入核函数K(x,x′)=(φ(x)·φ(x′))代替φ的内积运算,常用的核函数主要有多项式核函数、Gauss径向基核函数、B-样条核函数等。由此得到的分类函数为:f(x)=sgn{∑ni=1yiαiK(xi,x)+b}其中,αi≥0为拉格朗日乘子,αi不为零对应的训练样本称为支持向量。

1.7基于区间伸缩因子的决策融合

为了避免只采用单一分类器分类存在的片面性和分类精度不高的问题,本文添加BiPLS建立的分类模型,对分类结果进行决策融合。在二分类情况下,判定区间的划分通常以0为分界点,判定结果的误差较大,而判定区间的划分不合理是主要原因之一。在此背景下本文提出了判定区间伸缩因子α(-1<α<1),对结果判定区间进行调节,即对判定区间的分界点进行调节,找到最优的分类区间。其主要步骤如下:

(1)初始化判定区间。即α=0,此时判定区间以0为分界点,分为(-b,0)和(0,b),b为区间上界,即对于样本矩阵X,其中的某一个样本x的判定值y,则:

y∈(-b,0),x∈类Iy∈(0,b),x∈类II

(2)将SVM和BiPLS分别使用同一训练集样本进行训练,分别建立分类模型f(x)和φ(x),其中x为样本矩阵。

(3)用上述建立的分类模型对训练集分别进行验证,

得到两个分类模型的准确率分别为a1、a2。

(4)将上述得到的两个模型的识别率作为权值,进行归一化,即w1=a1a1+a2,w2=a2a1+a2,对验证的结果分别乘以权值后相加,则最终判别结果为:

F(x)=w1f(x)+w2φ(x);

(5)调节α,改变判定区间大小,如图3所示,当对训练集进行验证的准确率最优,此时的类别区间即为最优的类别区间,然后使用上述模型F(x)对预测集进行预测验证,并使用上述的最优判定区间进行类别判定,则:

2实验与分析

本文分别使用支持向量机、向后区间偏最小二乘法、K最邻近分类算法(K-NearestNeighbor,KNN)、聚类方法(K-means)以及本文提出的基于区间伸缩因子的决策融合方法进行了实验和分析。

向后区间偏最小二乘法(BiPLS)分别在分段数为30~50段的建模结果如表2所示,从表中可以看出在分段为36段时,效果最好,训练集准确率为100%,预测集准确率为86.8%。因此后续实验选用36段作为分段数。

表3是采用K最近邻分类算法对实验样本进行分类识别的实验结果。当K取不同值时,对实验样本进行分类的准确率不同。从表中可以看出,当K=1或K=5时,分类的准确率为94.7%,分类效果最好。

采用本文提出的决策融合方法进行建模,在不同大小伸缩因子(调节步长为0.05)下的实验结果如表4所示。由实验结果可以看出,当伸缩因子为0,即不进行分类区间伸缩时,训练集和预测集的准确率分别为97.2%和97.4%。当伸缩因子为0.25时,实验效果最好,训练集和预测集的准确率均为100%。该实验结果比分别使用SVM和BiPLS单独建模的准确率更高,说明本文提出的算法具有更好的性能。

3结语

本文通过比较不同的预处理算法,确定采用二阶导数预处理后的光谱作为支持向量机的输入,所得到的龙井近红外光谱模型最好;引入区间伸缩因子和决策融合方法,能够较好地优化分类模型的性能,使得模型的泛化能力得到有效提升。本研究针对的是二分类问题,该方法可以推广应用到多分类问题的研究中。本文使用支持向量机集合向后区间偏最小二乘法建立了龙井近红外光谱分类模型并确定了适当的模型参数,所建立模型对西湖龙井和普通龙井的训练集识别准确率和预测集识别准确率均达到了100%。与常规模型相比,本研究中建立的近红外光谱分类模型的识别精度更高。由此表明,本文提出的方法能够将西湖龙井与普通龙井较好地区分开来,在龙井的近红外光谱分类中具有良好应用。

参考文献参考文献:

[1]刘秋彬,杨振福.中国茶叶市场现状与品牌化探索[J].蚕桑茶叶讯,2013(6):22-23.

[2]WILLIAMSP,NORRISK.Near-infraredtechnologyintheagriculturalandfoodindustries[M].SecondEdition.Minnesota:BeverageandFoodWorld,2001.

[3]袁洪福,陆婉珍.现代光谱分析中常用的化学计量学方法[J].现代科学仪器,1998(5):6-9.

[4]袁洪福,陆婉珍.近红外光谱分析技术正在快速进入石油化工领域[J].石油炼制与化工,1998(9):49-52.

[5]雷松泽,姚红革.近红外光谱分析技术在水果品质无损检测上的应用[J].光谱实验室,2009(4):775-779.

[6]李豪豪,李威,赵世民,等.近红外光谱分析技术在烟草领域的研究进展及应用[J].安徽农业科学,2014(29):10318-10321.

[7]周健,成浩,曾建明,等.基于近红外的多相偏最小二乘模型组合分析实现茶叶原料品种鉴定与溯源的研究[J].光谱学与光谱分析,2010(10):2650-2653.

[8]陈全胜,赵杰文,张海东,等.基于支持向量机的近红外光谱鉴别茶叶的真伪[J].光学学报,2006(6):933-937.

[9]赵杰文,陈全胜,张海东,等.近红外光谱分析技术在茶叶鉴别中的应用研究[J].光谱学与光谱分析,2006(9):1601-1604.


推荐访问:伸缩 区间 判定 因子 算法

猜你喜欢