主页 > 案例大全 > 论文知识案例-基于群集成分表征的大米产地鉴别研究

论文知识案例-基于群集成分表征的大米产地鉴别研究

2021-05-17 10:54:47

  为提高大米产地鉴别模型的准确率,本文基于大米的群集成分信息,建立了一种拉曼(Raman)光谱和红外(Infrared Spectroscopy,IR)光谱数据融合鉴别模型。首先通过傅里叶红外光谱仪和拉曼光谱仪分别采集10种地理标志大米样本的指纹图谱,利用相对标准偏差分析和层次聚类分析剔除拉曼光谱差异数据,后取均值得到特征光谱,然后以盘锦大米、响水大米、西江大米、建三江大米、五常大米和延边大米为例,将剔除差异前后的数据和取平均值前后的数据分别建立分类模型。最后结合支持向量机(support vector machine,SVM)建立融合这2种指纹信息的鉴别模型。结果表明:层次聚类分析可找出潜在的差异数据,相对标准偏差分析可初步判断是否存在差异数据和最终验证是否是差异数据,先剔除差异数据再取平均值的数据处理方式可将大米产地鉴别模型的识别准确率提升12.89%;数据融合下的大米产地鉴别模型的准确率为96.67%,与拉曼光谱指纹信息模型(90.00%)和红外光谱指纹信息模型(93.33%)相比,分别提高了6.67%和3.34%,信息融合技术提高了该模型的鉴别效果,采用Raman-IR-SVM融合模型对10种地理标志大米进行产地鉴别,模型准确率为91.36%,表明所建立的差异数据剔除方法和数据融合鉴别模型具有一定的推广应用价值。

  “五谷之首”大米,也称稻米或简称米,是稻谷通过清理、砻谷、谷糙分离、碾米、成品整理等各道工序后制成的成品,富含B族维生素和矿物元素,是一种以碳水化合物、优质蛋白质和脂肪提供人体所需能量的重要主食[1],也是世界上最主要的谷物粮食作物之一。

  如今,以大米为主食的人已占全球人口半数以上,大米的产量和消费量也逐年增加,其中,中国是最大的大米生产国,大米年产量已连续数年位居世界第一,且每年都在增长,2019年更是超过2亿吨,占全球稻米产量的30%以上。随着生活水平的提高及大米产量的提升,我国每年生产的大米中有85%左右都用于大米加工,如大米发酵制品,具有良好的经济价值[2]。中国被称为“稻米王国”,大米在中国的饮食文化中占有举足轻重的地位,也是农业经济的重要组成部分,其质量和安全也一直备受关注。

  我国种植水稻的地理分布范围很广,由于气候和土壤等环境因素的特征多样,不同地区种植的水稻制成的大米在成分上各不相同,口感与营养价值具有较大差异,如海拔高度在一定程度上影响着大米直链淀粉的含量,气候条件主要通过影响大米胚乳细胞、内部生理生化过程进而影响大米品质,这也就形成了我国大米的不同品种[1]。例如 赵北地区是中国规模最大、最突出的水稻产区,良好的环境条件和悠久的种植历史,有利于提高区域水稻的优良品质,也诞生了许多地理标志大米品牌,如五常大米、响水大米、大显硒米等。然而,由于大米在外观及品质方面用肉眼难以鉴别,一些不法商家为谋取暴利,往往以次充好,做出将优质产品与不同品种、不同产地的次等大米混合等造假行为[3],同时,在市场经济下,低质高价、真伪混淆、产地造假的现象日益严重[4],大米掺假现象迅速普及,破坏了消费者与厂家、品牌商之间的信任关系,扰乱了大米市场环境。另一方面来说,农业食品工业的主要问题之一就是制定客观工具,确定原材料和成品的来源,以确保其可追溯性[]。因此,为了给诚信的生产商、零售商提供一种追溯大米来源的有效工具,提升消费者安全感,稳定大米市场,维护良好的市场环境,建立一种能够根据水稻的地理来源、准确识别水稻品种是迫切需要的。

  (二)国内外研究现状

  国内外关于大米分类识别方法的研究主要集中在稳定同位素、矿物质元素分析、稳定同位素与矿物质元素共同分析、色谱质谱分析、近红外光谱分析等方面,其中传统方法例如感官识别、近红外光谱、矿物质元素等都有一定的劣势与不足,如感官评价不仅对从业人员有很高的经验要求,且容易受主观影响而错判;矿物质元素方法的实验周期长且操作繁琐。

  近年来,一些新兴的方法如拉曼光谱分析、核磁共振、基于气味的电子鼻技术、离子体原子发射光谱等也有学者开展大米鉴别应用研究。在各类分析方法中,各种光谱分析技术凭借其快速、无损、可靠的优点广受欢迎,且越来越多与模式识别方法结合进行大米产地鉴别。其中,若干文献对拉曼光谱技术在大米鉴别中的应用进行了报道,如程运丽采集了产自江苏和、黑龙江的粳米以及四川、贵州、福建和海南的籼米的拉曼光谱信息,结合主成分分析对不同产地的粳米、籼米以及粳米与籼米进行了有效划分;田芳明;黄嘉荣等人利用最小二乘法对 赵北大米、清远大米、糯米的拉曼光谱数据进行拟合去除荧光背景和噪声,通过主成分分析结合线性判别法对大米进行分类,最高识别率达97.9%;田芳明以13种产自黑龙江的大米、1种原产辽宁的大米为研究对象,利用大米通过主成分分析降维后的拉曼光谱特征信息,结合偏最小二乘法(partial least squares method,PLS)获得识别效果最优的近地域大米品类鉴别模型,最高识别率达100%;孙娟等人采集了来自湖南、江苏、黑龙江三地共123份大米样品的光谱信息,结合主成分分析和PLS判别分析,建立的大米分类方法最高识别率达100%。但这些研究大都采取将大去壳后的米恒温干燥后,对整粒米分段采集拉曼光谱数据并取均值的方法获得特征光谱。这种方法获取的仅为米粒表面的化学成分信息,而米粒中各组成成分分布并不均匀,且在现代大米加工过程中,大米表面可能会有蜡等物质附着,会形成干扰,获得大米的拉曼光谱信息不够全面。所以,需对大米进行粉碎、筛分处理,收集成分尽可能均匀的米粉样品,以获得大米的群集成分信息。此外,采集2至3处光谱后直接取均值得到的数据并不一定准确,没有考虑到波动较大产生差异数据的可能性,所以为了获得全面的大米组分信息,需进行更多次的光谱采集,并且剔除存在的差异数据。

  而红外光谱分析技术发展至今,在大米鉴别方面应用最多的还是近红外光谱技术,如夏立娅等利用近红外光谱技术结合聚类分析和Fisher’s判别法鉴别119个响水大米和90个非响水大米,对于响水与非响水大米识别率达100%,而对于非响水大米产地鉴别,聚类分析识别率达91.9%,Fisher’s判别识别率为96.7%;钱丽丽、宋雪健等基于近红外光谱技术,结合化学计量学,综合利用偏最小二乘法、因子化法、Fisher’s判别等方法,对黑龙江产地大米,如查哈阳大米、五常大米、建三江大米、响水大米等进行了多重产地鉴别研究;高地基于5种产自松原的不同品种大米及其中1种产自柳河和梅河的同品种大米的近红外光谱数据,利用偏最小二乘判别法分别建立大米品种和产地的鉴别模型,识别率均达100%。李勇等利用近红外光谱技术结合主成分分析及线性判别法,对江苏、辽宁、湖北、黑龙江4地,共169个大米样品进性溯源分析,识别率达93%以上[]。然而,相较近红外光谱而言,大多数化学键的振动频率主要出现在中红外区,中红外光谱灵敏度更高,基团吸收也相对更明确,分辨率更好,但其应用研究多现于中药[]等领域,在大米产地鉴别方面仍处于空白状态。

  此外,由于只有极性分子才能产生红外光谱,红外光谱并不足以反映大米整体的成分信息,鉴别结果的准确性和可靠性较差,且过去文献大多仅采用类似的单一鉴别指标分析物质组分信息,为提高鉴别率,目前已有不少有学者开始研究信息融合的方法,如杜梦佳等人结合红外光谱与气相色谱质谱技术,将红外光谱信息与挥发性组分信息融合,通过偏最小二乘判别分析法建立大米产地鉴别模型,融合模型识别率达97.4%,比两种单一数据模型均有提升。而查阅文献得知,融合拉曼光谱与红外光谱指纹信息对大米产地进行鉴别的研究还未有报道,故考虑此方向。

  综上所述,在大米产地鉴别方面,现阶段对于拉曼光谱的应用研究中未考虑过差异数据对于光谱指纹信息影响,且研究方法单一,不足以反映大米整体的成分信息,鉴别结果的准确性和可靠性较差;另外,在信息融合鉴别方面,也未有对拉曼与红外数据融合的研究。

  (三)本文的研究目的和内容

  基于上述文献调研中发现的不足,本研究以10种地理标志大米为例,大米依次经精加工、粉碎、筛分获取较为均匀的米粉样品,运用拉曼光谱与红外光谱数据融合建模的方法,采用便携式激光拉曼光谱仪、傅立叶变换红外光谱仪,采集不同产地大米的谱图信息,在充分利用化学测量仪器所产生的化学信号特点的基础上,利用相对标准偏差分析和层次聚类分析剔除差异数据和筛选特征光谱,基于MATLAB平台并结合SVM算法,建立数据融合模型鉴别大米产地。

  本研究内容主要包括以下方面,研究思路流程如图1所示。

  1.样品采集与供试品制备

  2.光谱指纹图谱采集

  3.谱图分析

  4.差异数据分析

  5.融合模型分析

  图1研究思路流程图

  二、方法原理

  (一)拉曼光谱分析技术

  拉曼光谱是一种散射光谱,又称拉曼效应、拉曼散射。而拉曼光谱分析技术是以拉曼散射为基础建立起来的分子结构表征技术,主要适用于有机物官能团定性和结构分析。

  一束单色光入射于试样后有三个可能去向:一部分光被吸收;一部分光被透射;还有一部分光则被散射。当位于可见或近红外光区的强激光照射样品时,有0.1%的入射光子与样品分子发生弹性碰撞,此时,光子以相同的频率和波长向四面八方散射。这种散射光方向较入射光发生改变,而频率、波长与入射光相同的散射,称为瑞利(Rayleigh)散射。而入射光与样品分子之间还存在着概率更小的非弹性碰撞,由于分子振动和分子转动的作用,光子与分子间发生能量交换,使光子的方向、频率和波长均发生变化,这种散射光频率、波长和方向较入射光都发生改变的散射则为拉曼(Raman)散射,这种波长发生偏移的光的光谱就是拉曼光谱。光谱中常常会出现一些尖锐的峰,是试样中某些特定分子的特征。这就使得拉曼光谱具有进行定性分析并对相似物质进行区分的功能。同时,由于拉曼光谱的峰强度与相应分子的浓度成正比,拉曼光谱也能用于定量分析。通常,将获得和分析拉曼光谱以及与其应用有关的方法和技术称为拉曼光谱技术(Raman Spectros-copy)。

  最早在1923年,德国物理学家Smekall从理论上预言了光的非弹性散射的存在;1928年,印度物理学家C.V Raman在实验室实际观测发现并证实了光的非弹性散射效应。20世纪40年代红外仪器学取得大的进展并出现商业仪器供应,而早期拉曼仪使用的光源——弧汞灯散射光强度弱、激发光源能量低,未使拉曼散射得到有效使用,令其一度成为受到限制的特殊技术。20世纪60年代后,随着激光替代弧汞灯成为新光源,以及纤维光学探针的引入,大幅提高了拉曼光谱技术的功能,扩大了其应用范围。而近年来,随着傅里叶变换(Fourier Transform,FT)拉曼光谱术和CCD(Charge-Coupled Device)检测器的引入使用,以及光学技术的进一步发展,市场上高性能、结构紧凑又使用简便的拉曼光谱仪得到普遍供应,使拉曼技术在非实验室环境下得以应用,应用领域也不断扩展。

  拉曼光谱分析技术是一种无损的、非侵入性分析技术,基于光和材料内化学键的相互作用而产生的,可以提供样品的化学结构、相和形态、结晶度以及分子相互作用的详细信息,而且无需标签,具有检测灵敏度高、时间短、所需样品量小、样品无需制备等优点。与NIR光谱相同,这种方法通常不需要溶解或提取被分析的样品,大大简化和缩短分析时间。此外,在记录拉曼光谱后,可以使用其他分析工具对同一样本执行其他分析。该方法的另一个好处是,特别是与红外光谱学相比,水的存在并不妨碍液体样品的分析。在其他产业的应用中,其高自动化能力也非常重要。因此,拉曼光谱是定量分析的便捷工具,适用于生物化学、法医学、药物和食品分析等多个研究领域。

  (二)红外光谱分析技术

  红外光谱又被称为分子振动转动光谱。红外光谱在化学领域中主要被应用于分子结构的基础研究和对化学组分的分析两个方面。

  红外光谱是由分子振动能级跃迁的同时伴随转动能级跃迁对红外光的吸收而产生的。红外辐射具有合适的分子振动能量,刚好保证它能满足光子和物质跃迁的所需,导致振动跃迁的产生,即红外光照射分子时,红外辐射的频率与分子中的某个基团的振动频率一致。此为物质吸收电磁辐射所需满足的两个条件之一。其二,分子必须有偶极矩的改变,使辐射与物质分子之间发生偶合作用,增加分子的振动能,使振幅加大,令分子从基态振动跃迁到较高的振动能级。满足这两个条件的振动可产生红外吸收,引起可观测的红外吸收谱带。

  红外光谱按照红外线波长,如表1所示,可分为三个区域。近红外光谱介于可见光与中红外光之间,一般将波数范围为12820~3959 cm-1,波长范围0.78~2.5μm的红外波段划为近红外区,也是人们最早认识的非可见光区。中红外光谱为波数范围为4000~400 cm-1,波长范围为2.5~25μm的电磁辐射,这个区间的红外波段划为中红外区;由于这个区域包含了绝大多数化学键的振动基频,其吸收强且灵敏度高,中红外光谱在分析物质结构和组成中发挥重要作用。波数范围为400~33 cm-1,波长范围为25~300μm的红外波段划为远红外区,这个区域光源能量弱,一般不在此区做定量分析。

  表1红外光谱区分类

  名称λ/μmσ/cm-1能级跃迁类型

  近红外(泛频区)0.78~2.5 12820~3959 O—H,N—H及C—H键的倍频吸收

  中红外(基本振动区)2.5~25 4000~400分子中基团振动、分子转动

  远红外(转动区)25~300 400~33分子转动、品格振动

  本文采用中红外光区波段产生红外光谱数据进行分析。

  (三)支持向量机

  支持向量机(support vector machine,SVM)是以统计学习理论为基础发展起来的一种机器学习方法。基于支持向量机的分类技术是当代最好的分类方法之一,在小样本、非线性和高维数据空间的模式识别问题上具有显著优势。如图所示,其基本原理是将输入数据通过内积变换从原特征空间映射到一个高维特征空间,并通过构造目标函数,根据结构风险最小原理,在这个空间中寻找一个满足分类要求的最优分类超平面,能够划分不同类数据并使类别间的分类间隔最大,然后无限接近两类数据的地方建立两个与最优分类面平行的超平面,并保证其间隔距离最大化。核心内容就是将输入空间通过非线性映射到高维特征空间,并在这个空间中构造最优分类超平面对数据进行分类。

  图线性可分情况下的最优分类线

  最后的分类函数可表述为:

  核函数的不同可得到不同的支持向量机,因而核函数的选择是很重要的,常用的核函数有:

  1.线性内核:

  2.径向基函数内核:

  3.多项式内核:

  4.S形内核:

  本文的SVM建模使用径向基核函数(Radial Basis Function,RBF),并通过网格搜索技术对gamma和c参数进行优化。

  (四)数据预处理方法

  1.去噪

  拉曼光谱仪在使用的过程中会受到复杂噪声的影响,从来源讲分别有发射端噪声、设计噪声、背景光噪声、装配噪声与接收端噪声,这些噪声通常通过观测接收到的信号来进行量化,成为收集到的图谱信息中的一部分,即为干扰项,所以需对收集到的信息进行噪声抑制处理,提高信噪比。去噪能一定程度上消除随机误差和噪声,本文采用小波去噪,其基本原理是将原始信号进行小波变化,进而得到小波系数,同时设定一个阈值,被认为是噪音的小波系数小于此阈值,将其归零剔除;大于此阈值的为有用信号,将这部分小波系数进行逆变换,可得到滤噪后的信号。本文利用MATLAB 2016a平台的wden函数进行去噪。

  2.归一化

  归一化(Namaliztion,NL)又称数据标准化,即将光谱数据等比例缩放于某一特定范围内,其目的是为了消除量纲的影响,使变量和均值分布更均衡。本文利用MATLAB 2016a平台的mapminmax函数对数据进行归一化处理,将数据的每一列作为一个样本,每一行作为一个维度,形成M×N的矩阵,其每一行都分别进行归一化,令每行的最大值与最小值作为每行归一化的xmin和xmax,将每行数据与最小值的差除以每行最大值与最小值的差,得到的新光谱数据范围即为0-1。本文利用此函数将数据归一化到0-1。

  3.多元散射校正

  多元散射校正(Multiplicative Scatter Correction,MSC)多用于现阶段的多波长定标建模,光谱数据经过散射校正后可以有效地消除散射影响。其基本思想是首先建立一个待测样本的的“理想光谱”,以此为标准将所有其他样品的光谱旋转,尽可能逼近该光谱,以校正基线平移和偏移。“理想光谱”的变化与样品中的成分含量满足直接的线性关系,但在实际运用中很难得到,而一般取所有光谱的平均光谱来作为标准光谱,就可达到修正各样品光谱间相对基线平移和偏移现象的目的。

  假设各波长点数相同,每个样品的光谱与平均光谱进行一元线性回归运算,线性回归方程如下:

  多元散射校正方程如下:

  其中,表示单个样品光谱矢量,为平均光谱,为回归系数,表示各光谱相较于平均光谱的倾斜偏移量;为回归常数,表示各光谱相较于平均光谱的线性平移量。为多元散射校正后得到的光谱。

  (五)层次聚类分析

  1.层次聚类分析

  聚类分析是一种通过观察对象某些特征并加以归类的数理统计分类技术,通过与其他多元分析方法相比,在理论上还不完善,但其对于实际问题的应用解决受到较大重视,目前已在食品分类和产地鉴别研究等方面广泛应用。而层次聚类分析(Hierarchical Clustering Analysis,HCA)是各聚类分析方法中使用最广泛的一种,其基本分析步骤如下:首先将n张光谱数据各作为一类;然后选定距离定义方法,分别计算各类之间的距离,得到距离矩阵;接着合并距离最近(即相似度最高)的两类作为一个新类;再计算此新类与当前各类的距离,合并距离最近的两类,再计算,重复此过程直至所有数据样本合并成一类为止;最后画出聚类树图以供分析。

  本文使用欧氏距离(euclid)、标准欧氏距离(seuclid)、城市街区距离(cityblock)和余弦距离(cosine)作为距离度量方法,采用平均距离法(average)、最短距离法(single)和最长距离法(complete)创建系统聚类树,并得出最佳创建方法。

  2.同表象型相关系数

  同表象型相关系数是对层次聚类对数据拟合程度的度量指标,用来评价聚类结果的准确程度。其定义为聚类树中获得的相似值的同型距离之间的线性相关系数。该系数受采用的距离度量方法与聚类方法影响,数值越接近1,聚类分析结果越理想,通常根据此系数选择最佳的距离度量方法与聚类方法的组合,本文利用matlab 2016a平台、基于cophenet函数进行分析。

  (六)主成分分析

  主成分分析(Principle Component Analysis,PCA)也称主分量分析,是一种基于降维思想,将多个复杂数据变量通过降维技术转化为少数几个综合变量(即主成分)的多元统计分析方法。这些转化成的主成分能够反映出原始变量的大部分信息,且其包含信息互不重叠,各主成分之间无关联性。这种分析技术用提取的主成分能集中典型地表征原始变量的数据特征,从而达到以少数因子反映总体信息,减少相关信息干扰的目的,为提取主要的差异性指标提供了理论方法。

  三、实验

  (一)材料

  10种地理标志大米分别为吉林省通化县西江镇的西江大米,品种为秋田小町;辽宁省盘锦市的盘锦大米,品种为蟹田珍珠米;黑龙江省农垦总局建三江分局的建三江大米,品种为绥粳18长粒香;黑龙江省哈尔滨市五常市的五常大米,品种为稻花香;黑龙江省宁安市渤海镇的响水大米,品种为长粒香;吉林省延边朝鲜族自治州的延边大米,品种为珍珠米;黑龙江省哈尔滨市方正县的方正大米,品种为清香稻;江苏省泰州市姜堰区沈高镇河横村的河横大米,品种为南粳9108;江苏省兴化市的兴化大米,品种为南粳9108;山 赵省鱼台县的鱼台大米,品种为老301。大米为2017年和2018年间种植,为了保证样品的代表性,在地理标志大米种植区域内分散采样,西江、盘锦、建三江、五常、响水、延边、方正、河横、兴化和鱼台大米分别在6、10、7、7、10、5、11、7、7和11个采样点采集样品,每个采样点各采集了两份大米,每份大米采集约2kg样品,所有样本均为粳米。

  (二)仪器与设备

  NA12345砻谷机和NA-JCB碾米机宁波科麦仪器有限公司;15B型立式粉碎机(内置网孔直径为0.6 mm的筛网)台州巴菱电器有限公司;Prott-ezRaman-d3便携式激光拉曼光谱仪美国Enwave Optronics公司;拉曼测试样品池(石英材质,长4 cm,宽2 cm,厚3 mm,正中央圆形凹槽直径1.5 mm,深度2 mm);Nicolet IS-10型傅立叶变换红外光谱仪美国赛默飞世尔科技公司(Thermo Fisher Scientific);电子天平;秒表;分级筛(100目和140目)。

  (三)实验过程

  1、供试品制备

  将水稻进行晾晒、脱粒、挑选、砻谷和碾米等加工,每份水稻砻谷2次,碾米1次。准确称取加工后的每种大米样品20 g,在半分钟内缓慢加入到已预热运行1分钟的粉碎机中,粉碎2分钟,确保大米粉碎完全。所得米粉依次经100目和140目筛进行筛分,收集粒度为100-140目的米粉,作为拉曼光谱测试的供试品,置于冰柜中冷藏储存,使用前置于干燥器中平衡至室温。

  2、谱图测试

  拉曼光谱采集参数如下[]:激发波长785 nm,功率450 mW,CCD检测器-85℃,扫描范围250-2339 cm-1,分辨率1 cm-1,曝光时间4 s,扫描次数3次,激光与样品表面间距为5 mm。采用粉碎涂抹法,米粉置于石英样品池中,对于每一份大米分别在5个不同的位置各采集一张拉曼光谱,如图所示。同时采用拉曼光谱仪自带的软件对光谱进行基线校正预处理。每个样品装样、测试(5次)、图谱保存、卸样清洁大约耗时2分钟。

  图拉曼光谱采点示意图

  红外光谱采集参数如下:分辨率4 cm-1,采集次数32次,光谱波段范围:525-4000 cm-1,仪器两小时自动扫描并扣除背景信号。将适量米粉覆盖在测试窗口,压紧磨具测试,每个样品重复测定3次,取平均光谱,每做完一个米粉样品后用酒精棉球擦拭窗口。每个样品装样、测试(3次)、图谱保存、卸样清洁大约耗时2.5分钟。

  3、数据处理

  第一步:为了从原始谱图数据中去除干扰的和无关的信息,在数据分析之前首先对原始数据做一些预处理。本文中,拉曼光谱和中红外光谱数据依次用wden小波函数进行去噪处理,用MSC消除散射的影响,用mapminmax函数进行归一化。

  第二步:由于拉曼光谱测试受环境和仪器等的干扰相对较大,在建模分析前综合运用相对标准偏差(RSD)分析和层次聚类分析(HCA)剔除潜在的差异数据。然后,将每个样品的多个拉曼光谱和红外光谱分别取平均值,作为样品的代表性谱图信息。

  第三步:基于SVM对样本地理来源进行鉴别,将每个批次的第1份米的数据作为训练集数据,第2份米的数据作为测试集数据,训练集用于构建指纹因子-大米产地模型,测试集用于对构建的模型进行验证、评价,SVM建模使用径向基核函数,通过网格搜索技术对gamma和c参数进行优化[],最终通过测试集的识别率比较模型的优劣,分别考察模型采用拉曼光谱、红外光谱以及两者融合后的数据的鉴别效果。

  所有数据预处理和模型构建均基于MATLAB 2016a进行。

  四、结果与分析

  (一)谱图分析

  以西江、盘锦、建三江和五常大米为例,以4种大米的第1批次的第1份米的光谱为例,经去噪、MSC、归一化处理后的谱图如图所示。拉曼光谱峰较密集区域位于250-1500 cm-1;经相对标准偏差分析发现,红外光谱稳定性较高的波段位635-4000 cm-1,因而,后续分析采用该区域数据。图可见,四种不同产地大米光谱形状高度相似,难以通过肉眼辨别。

  (a)

  (b)

  图4种大米第一批次第一份米经去噪、MSC、归一化处理后的光谱图(a)拉曼光谱图(b)红外光谱图

  (二)差异数据分析

  以盘锦大米、响水大米、西江大米、建三江大米、五常大米和延边大米6种地理标志大米为例,进行差异数据分析研究。

  1.相对标准偏差分析

  以盘锦大米为例,样品信息和谱图编号信息如表所示。在250-2500 cm-1之间,盘锦大米每批次每份米的5个拉曼光谱经数据预处理后的相对标准偏差值如表所示。由于米粉样品颗粒的不均匀性、仪器的波动性、操作误差、实验环境等因素对拉曼光谱采集的干扰,相对标准偏差值普遍在11%-14%之间波动。表中可知,共有4个批次、总计5份大米的RSD值超过正常波动范围,其中第5批次的第1份大米和第6批次的第2份米的RSD较大,所以怀疑其中存在波动较大的差异数据。

  表盘锦大米样品信息和谱图编号信息

  采样批次1 2 3 4 5

  第1份米谱图编号pj111-115 pj211-215 pj311-315 pj411-415 pj511-515

  第2份米谱图编号pj121-125 pj221-225 pj321-325 pj421-425 pj521-525

  采样批次6 7 8 9 10

  第1份米谱图编号pj611-615 pj711-715 pj811-815 pj911-915 pj1011-1015

  第2份米谱图编号pj621-625 pj721-725 pj821-825 pj921-925 pj1021-1025

  表盘锦大米每份米的5个拉曼光谱数据的相对标准偏差值

  采样批次1 2 3 4 5

  第1份米RSD值/(%)13.507 12.481 11.718 12.925 19.873

  第2份米RSD值/(%)14.479 13.546 13.358 11.352 13.908

  采样批次6 7 8 9 10

  第1份米RSD值/(%)14.176 13.097 12.911 11.540 13.455

  第2份米RSD值/(%)15.898 13.211 12.840 12.458 14.423

  2.层次聚类分析

  为了更准确、直观地找出差异数据,对每份大米的5个拉曼光谱进行层次聚类分析,分别使用欧氏距离(Euclid)、标准欧氏距离(Seuclid)、城市街区距离(Cityblock)和余弦距离(Cosine)作为距离度量方法,采用平均距离法(Average)、最短距离法(Single)和最长距离法(Complete)创建系统聚类树。以盘锦大米第5批次的第1份米为例,不同聚类树创建方法对应的同表象型相关系数值如表所示,可知以标准欧氏距离(Seuclid)作为距离度量方法、平均距离法(Average)作为创建聚类树方法对应的同表象型相关系数值为0.9536,在所有方法中最大,所创建的聚类树最佳。此方法创建的聚类树如图所示,其中谱图编号1-5对应表1中的谱图编号pj511-515,从图中可见,谱图2与谱图3最为相似,而谱图4与其他谱图差异显著,有明显两类现象,故可认为谱图是可疑的差异数据。将其剔除后,再计算这份大米剩余4个拉曼光谱的相对标准偏差值为12.279%,处于11%-14%的正常波动范围内,由此可证谱图4为差异数据,后续建模分析时应将其剔除。

  表不同创建聚类树方法下的同表象型相关系数值

  距离度量方法创建聚类树方法

  Average Single Complete

  Euclid 0.9513 0.9483 0.9510

  Seuclid 0.9536 0.9517 0.9534

  Cityblock 0.9369 0.9361 0.9367

  Cosine 0.9513 0.9483 0.9510

  图盘锦大米第5批次第1份米的5张拉曼光谱HCA分析聚类树图

  剔除差异数据后,对盘锦大米第5批次两份大米的剩余9个拉曼光谱数据进行HCA分析,如图所示。图中谱图编号1-4对应盘锦大米第5批次第1份米剔除差异数据后的4个拉曼光谱数据,谱图编号5-9对应盘锦大米第5批次第2份大米的5个拉曼光谱数据。这9张谱图在一起分析无明显聚成两类的现象,说明盘锦大米第5批次两份米差异较小,无明显差异数据。上述研究结果表明,RSD分析可以预判是否存在差异数据,HCA分析可找出潜在的差异数据,最后再经RSD验证可明确差异数据,两者综合运用提供了精确、可靠的差异数据剔除方法。

  图盘锦大米第5批次剔除差异数据后9张拉曼光谱HCA分析聚类树图

  重复上述分析步骤,对盘锦大米剩余9个批次大米做同样的分析。分析发现,表中经RSD分析后,RSD值超过11%-14%范围的、共计4个批次5份大米的拉曼光谱均存在显著差异数据,谱图编号如表所示,且剔除差异数据后,每份大米的RSD均处于11%-14%的正常波动范围内,由此可见,RSD分析可以较准确预判是否存在差异数据,后续建模应剔除表中所示7个差异数据。进而,对响水、西江、建三江、五常和延边大米的拉曼光谱数据进行分析后,发现分别存在8、5、4、2和4个差异数据,后续分析应剔除。

  表剔除差异数据后的批次每份大米的RSD值

  采样批次1 5 6 10

  差异数据的谱图编号pj124 pj514 pj612、pj624、pj625 pj1022、pj1025

  第1份米RSD值/(%)13.507 12.279 12.397 13.455

  第2份米RSD值/(%)12.201 13.908 11.518 11.750

  3.不同数据处理方式下的模型鉴别结果

  以剔除差异数据前/后和取平均值前/后组合的四种拉曼光谱数据(A-D)分别建立大米产地鉴别模型,将每个批次的第1份米的数据作为训练集数据,第2份米的数据作为测试集数据,SVM建模使用径向基核函数(Radial Basis Function,RBF),通过网格搜索技术对gamma和c参数进行优化,并最终通过测试集的识别率比较模型的优劣,结果如表所示。

  由表可知,未剔除差异数据和取平均值的数据平均识别率较低,仅为78.22%,不足80%;剔除差异数据后平均识别率略有上升,提高了不足2%;取平均后的数据样本平均识别率为84.44%,比原始样本提升超过6%,较差异数据法提升幅度大,且其中2种大米达到100%,可见取平均值的方式更优;而先后经剔除差异数据、取平均值两种方式处理的数据建模的平均识别率最高,达到91.11%,相较原始数据提高了约13%,分类鉴别能力大幅提升,且每种大米的平均识别率均有提升,可见经两种方式先后处理的数据建立的模型最优,后续数据建模分析前均采取此处理方式。

  表不同数据处理下的模型鉴别结果

  大米响水西江盘锦建三江五常延边平均识别率/(%)

  不踢除差异数据、不取平均(A)训练集样本数/(个)50 30 50 35 35 25 78.22

  测试集样本数/(个)50 30 50 35 35 25

  识别率/(%)96.00 63.33 78.00 60.00 82.86 80.00

  踢除差异数据、不取平均(B)训练集样本数/(个)45 26 48 33 34 23 80.09

  测试集样本数/(个)47 29 45 33 34 23

  识别率/(%)95.74 68.97 77.78 63.64 85.29 82.61

  不踢除差异数据、取平均(C)训练集样本数/(个)10 6 10 7 7 5 84.44

  测试集样本数/(个)10 6 10 7 7 5

  识别率/(%)100.00 66.67 90.00 57.14 100.00 80.00

  踢除差异数据、取平均(D)训练集样本数/(个)10 6 10 7 7 5 91.11

  测试集样本数/(个)10 6 10 7 7 5

  识别率/(%)100.00 66.67 90.00 85.71 100.00 100.00

  为探究差异数据对模型鉴别能力的影响,对采用数据C和D建模的结果进行分析,结果如图。采用数据C建模时,共有7个样本被错误分类,其中,延边大米有1个样本被错误地归类为五常大米;盘锦大米有1个样本被错归为建三江大米;西江大米有2个错误分类样本,其中一个被错分为盘锦大米,另一个被错误地归类为五常大米;有3个建三江大米样本被错误分类,分别被错归为西江大米、盘锦大米和五常大米。而采用数据D时,延边大米无样本被错误分类,可与其他大米完全区分开,建三江大米的错误分类样本数减少为1个,能与盘锦大米和五常大米正确区分。分析结果表明,差异数据降低了鉴别模型的准确性,在分析前进行剔除处理。

  图大米样品被错误分类的情况图

  为探究数据取平均值对模型鉴别能力的影响,以响水、西江和盘锦大米为例,对数据B和D进行主成分分析,结果如图所示。由图可见,使用数据B时,响水大米和盘锦大米可以明显区分,但西江大米和盘锦大米大部分样本混杂在一起,响水大米与西江大米也有少数样本混在一起,三种大米没有明显的分界,难以区分开。而使用数据D(即数据取平均值后),响水大米与盘锦大米分散在很远的两端,较使用数据B时更易区分;响水大米和西江大米也有明显的分界,可以区分;西江大米有一个样本落在盘锦大米的样本簇中,其余数据与盘锦大米不交融。可见,尽管样品成分不均一,在对数据取平均值后,使得同种大米样品内的差异减小、不同大米样品间差异扩大,有利于提升分类鉴别模型的准确率。

  图响水、西江和盘锦大米在前三主成分上的分布图

  (三)数据融合分析

  1.单一模型分析

  (1)拉曼光谱数据模型鉴别结果

  经前文分析可知,先后经剔除差异数据、取平均值两种方式处理的数据建立模型最优,故将西江、盘锦、建三江和五常4种大米共60份样品在剔除差异数据后分别取平均值的拉曼光谱作为每份大米的代表性谱图,然后以拉曼光谱的吸光度值作为自变量,产地分类作为因变量,其中光谱范围中每个波数点对应的吸光度为一个变量,即将数据列为60×1250的数据矩阵X和60×1的数据矩阵Y,60为样本数,1250为自变量数,1为分类变量,取1/2的样品作为训练集,1/2的样品作为验证集,利用Matlab软件判断样品所属类别。识别率为86.67%,总识别耗时8.2s。

  考虑到具有相关性的变量会降低谱图的效率,故对数据做主成分分析,提取光谱特征信息,减少相关信息干扰,再进行分类鉴别,分析结果如表所示。由表可见,前59个主成分的累计贡献率达到100%,可代表原始数据矩阵的整体信息,但其分类模型识别率与采用原始矩阵数据的结果相同,但与表中其他矩阵数据的识别率相比并不是最高,所以认为其中存在部分无用信息对模型形成干扰。而表中识别率最高的是在主成分数为9-11以及18时所建立的模型,达到90%,总识别耗时为1.3-1.4s,都比用原始矩阵数据建模效果更好。

  表拉曼光谱在不同主成分数下模型鉴别结果

  主成分数累计贡献率/(%)识别率/(%)总识别耗时/(s)

  1 37.83 33.33 1.2

  2、3 57.29-62.59 73.33 1.2

  4 65.85 76.67 1.2

  5 68.68 83.33 1.5

  6 71.39 86.67 1.3

  7 73.60 83.33 1.3

  8 75.31 86.67 1.3

  9-11 76.80-79.43 90.00 1.3-1.4

  12-17 80.47-85.12 86.67 1.3-1.5

  18 85.89 90.00 1.4

  19 86.64 83.33 1.4

  20-25 87.34-90.42 86.67 1.4-1.6

  26、27 90.98-91.51 83.33 1.4、1.5

  28、29 92.01、92.48 86.67 1.4

  30-57 92.93-99.79 83.33 1.4-1.7

  58、59 99.90-100.00 86.67 1.6

  大米样本被错误识别的情况如图所示。当采用所有数据时,共有4个样本被错误分类,其中,西江大米有2个样本被错误归类,1个被错分为盘锦大米,另一个被错分为五常大米;盘锦大米有1个样本被错误地归类为建三江大米;建三江大米也有1个样本被错认为西江大米。当使用主成分数为9、10、11和18的矩阵数据建模分类时,被错误识别的样本数均较使用所有数据时均减少了1个。当主成分数为9、10、18时,被错误分类的样本与使用所有数据时被错误分类的样本情况类似,而在使用主成分数为11时,样本被错误归类的情况较前三种发生加大变化;其中,盘锦大米有2个错误归类样本,其中1个被误归为建三件大米,另1个被错认为是西江大米。可见采用不同的数据得到的分析结果存在较大差异。

  图大米被错误分类的情况图

  (2)红外光谱数据模型鉴别结果

  将每份大米样品三次测量所得的红外光谱取平均值作为该份大米的代表性谱图,共计60份大米样品。然后以红外光谱透光率值作为自变量,产地分类作为因变量,其中光谱范围中每个波数点对应的透光率为一个变量,即将数据列为60×7100的数据矩阵Z和60×1的数据矩阵Y,60为样本数,7100为自变量数,1为分类变量,取1/2的样品作为训练集,1/2的样品作为验证集,利用Matlab软件判断样品所属类别。识别率为93.33%,识别耗时43.6 s。

  同样地,为减少相关性信息干扰,对红外光谱数据矩阵进行主成分分析,在采用不同主成分数下的分类鉴别结果如表所示。由表可见,在主成分数达到7及以上时,识别率达到最大,为93.33%,与采取所有波段数据时所建立的模型识别率一致。模型识别率有随采用的主成分数增多而增大的趋势,且在采用主成分数超过7后,识别耗时有随主成分数的增多而增长的趋势,但涨幅较小。综合表来看,采用红外光谱技术建模鉴别四种大米的识别准确率可达到93.33%,要优于拉曼光谱。

  主成分数贡献率/(%)识别率/(%)总识别耗时/(s)

  1 70.22 33.33 1.3

  2 87.43 60.00 1.3

  3 92.54 76.67 1.2

  4-6 95.04-97.34 90.00 1.2

  7-59 97.96-100.00 93.33 1.2-1.6

  表红外光谱在不同主成分数下模型鉴别结果

  在识别率为93.33%时,查看样本错误分类结果发现,不论是采用原始数据、还是采用主成分数为7-59的矩阵数据,都有2个建三江大米样品被错误的分类为五常大米。四种大米样本在前3主成分上的分布散点图如图所示,五常大米与西江大米和盘锦大米的样本分布差异较大,容易识别,而西江大米与盘锦大米和建三江大米、盘锦大米与建三江大米、建三江大米与五常大米均有部分样本分布比较接近,容易产生误判,这也说明了采用前3主成分数时模型识别准确率只有76.67%的原因。

  图4种大米在前3主成分上分布散点图

  2.数据融合分析

  (1)数据融合后的模型鉴别结果

  从原理上看,拉曼光谱通过分析波长与方向都较入射光发生改变的散射光来得到分子的结构信息,能够识别分子官能团;而红外光谱通过分子发生振动能级和转动能级跃迁而吸收红外光的情况形成谱带,反映分子中含有官能团或化学键的信息。但红外吸收光谱的产生要求分子必须有瞬间偶极矩的改变,即分子需有非对称性振动或极性基团振动,而拉曼光谱则适合同原子的非极性键振动,非极性分子同样能产生拉曼光谱,两种光谱在分子识别上是相互补充的,那么考虑将两种光谱信息结合,反映的分子信息将更加全面。

  从上述实验分析结果来看,在同为模型识别准确率最高时,采用红外光谱分析技术下错误分类的大米样品均为建三江大米,而拉曼光谱分析下(主成分数为18时),建三江大米识别准确率达到100%,进一步说明这两种技术的互补性,将二者数据融合或可使鉴别结果更准确。

  首先将拉曼光谱数据与红外光谱数据进行低级融合,即将60×1250的数据矩阵X和60×7100的数据矩阵Z按照图(以西江大米第1批次的第1份米为例)的方式进行拼接,融合成60×8350的数据矩阵M。模型识别率为93.33%,和红外光谱技术的一致,识别耗时47.9 s。而样本被错误识别的情况与使用红外光谱技术是错误识别的结果相同,未达到提高提高鉴别准确率的效果,原因可能是拉曼光谱数据的变量数远远小于红外光谱的,直接拼接原始数据的融合方式降低了拉曼数据在整体光谱信息中的权重,使得拉曼的特征信息未发挥最大的作用。

  图低级融合示意图

  针对可能的原因,为降低数据规模差异带来的影响,将两者进行中级融合根据前文表和表的分析结果,分别选取拉曼光谱和红外光谱技术下最高识别率对应的主成分数据,拼接构建新的数据矩阵,建立分类模型,结果如表所示。其中,在采用拉曼主成分数9与红外主成分数8或9时的矩阵数据拼接,以及采用拉曼主成分数10、红外主成分数8或10的矩阵数据拼接,得到融合模型识别率最高,达到96.67%,相较拉曼光谱的最高识别率90%提高了6.67%,相较红外光谱的提高了3.34%;样本错误分类的情况均为建三江大米的1个样本被错分为西江大米。由此可见,二者的融合对于五常大米、西江大米和盘锦大米鉴别格外有效,提升了分类鉴别的准确率。

  表拉曼光谱与红外光谱在不同主成分数下融合模型鉴别结果

  拉曼主成分数红外主成分数识别率/(%)

  9 8、9 96.67

  10 8、10 96.67

  11 8、11 93.33

  18 8、18 93.33

  (2)红外光谱与拉曼光谱数据融合技术的推广应用情况

  对响水、延边、方正、河横、兴化和鱼台大米的拉曼光谱数据进行差异数据剔除、取平均值后,与上述4种地理标志大米共同建立拉曼光谱分类鉴别模型,数据矩阵为162×1250,得到的模型识别率为90.12%,识别耗时63.9 s。对响水、延边、方正、河横、兴化和鱼台大米的红外光谱数据取平均值后,与上述4种地理标志大米共同建立红外光谱分类鉴别模型,数据矩阵为162×7100,得到的模型识别率为85.19%,识别耗时331.7 s,识别耗时较长且识别准确率不理想。为了提高模型的准确率和识别效率,采用中级融合的方法,发现当拉曼主成分数取40、红外主成分数取20时,数据融合后的模型对10种大米的鉴别准确率为91.36%,识别耗时为3.1 s,结果较为理想。