主页 > 案例大全 > 论文技巧案例-随机抽样一致性算法及其应用研究

论文技巧案例-随机抽样一致性算法及其应用研究

2021-06-17 12:16:30

  波长调制激光光谱作为一种高灵敏度光谱技术,通常需要校正后才能用于大气痕量气体浓度测量。由于该技术通常所搭配的信号处理算法难以满足实际需要,本文提出了一种基于随机抽样一致性算法的气体浓度反演算法。通过对气体中甲醛分子二次谐波信号的仿真信号与实际测量结果进理论分析与实验探究,与一般情况下所使用的最小二乘法进行了对比分析。结果表明,随机抽样一致性算法具有较强的抗噪声和异常点干扰能力,尤其在信噪比较低,噪音干扰严重的情况下,反演结果精确度更高,具有很好的可靠性和优越性。

  自上世纪后半页以来,各门类工业发展迅速,带来的环境污染尤其大气污染问题也越发难以忽视。包括雾霾,酸雨,汽车尾气污染与工业废气排放等多种污染对大气环境造成了严重破坏,使得可持续发展的局面日益难以为继,社会急需更加先进的污染治理手段。监控与治理环境污染需要大量的相关数据与坚实的理论基础,因此,科研界对大气污染物的检测技术的相关需求日益迫切。可调谐半导体激光吸收光谱(Tunable Diode Laser Absorption Spectroscopy,TDLAS)技术自20世纪70年代出现以来,已经取得了飞速的发展。该技术以郎伯-比尔定律为理论基础,主要通过可调谐半导体激光器具有的窄线宽与注入电流的改变直接影响波长长度的特性,成功实现对彼此接近且难以区分的单个或多个吸收线的测量,二极管激光器具有高单色性,因此可以仅仅使用单独的一条气体分子吸收谱线进行测量,排除了不同分子光谱交叉造成的干扰,从而准确的鉴别出待测气体。作为一种新型的非接触式气体浓度诊断技术,TDLAS有着实时,动态等优点,因此广泛的被应用于工业过程监测控制与大气痕量气体的研究中。该方法较为简单,但难以排除系统噪声在内的各种干扰,因此难以实现准确的测量。为了解决该问题,各种调制技术发展起来并与TDLAS技术相结合。

  1981年REID与LABRIE共同提出了将波长调制光谱技术(Wavelength Modulation Spectroscopy,WMS)应用到TDLAS中[1],该方法将高频正弦信号叠加到低频激光波长扫描信号中,通过锁相放大器进行提取,进而以此计算气体的浓度。1/f噪声在这种情况下基本被排除出了测量结果,使实验结果的精确程度得到了巨大提升。这种调制光谱技术依据调制频率的高低可分为波长调制(WMS)与频率调制(Frequency Modulation Spectroscopy)两种.其中波长调制使用的频率一般远小于线宽(几千赫兹到几十千赫兹);而频率调制使用的调制频率远大于线宽,一般为几百兆赫兹。相对于波长调制技术,频率调制技术所用到的实验设备更为精密且复杂,门槛更高,难以大范围推广,因此往往使用波长调制光谱技术。波长调制光谱因其较高的灵敏度,被广泛应用于空气质量检测、生产流程、燃烧诊断、生物医学等学科领域,且普遍采用波长调制光谱中的二次谐波信号用于反演气体浓度,但是该技术存在的不足是,作为一种间接的光谱技术,需要首先标定系统,进而才能通过反演计算,得出被测样品的浓度[2]。至今为止的科研成果睡眠,样品浓度与其二次谐波信号成正比关系,目前主要采用二次谐波信号整个线型轮廓线性回归分析法或者二次谐波信号峰值比值法进行反演。前者仅仅计算样品信号与参考信号之间单个峰值间的比值,采样点相对较少,在吸收信号强度较弱,噪音干扰难以排除的情况下测量误差大。后者则利用整个二次谐波信号的有效吸收线型,运用最小二乘法(least square method,LSM)[3][4],增加了反演的数据点,显著的降低了测量误差,但依然会收到较为明显的噪声干扰,导致反演结果出现误差,难以满足实际需求。

  由于最小二乘法难以处理噪音较大的实验数据,需要一种更好的拟合算法配合二次谐波信号整个线型轮廓线性回归分析法得出更精确的实验结果。随机抽样一致性算法(random sample consensus,RANSAC)算法更能鲁棒性与高精度的估计参量。本文将首先介绍波长调制激光光谱技术的相关内容,然后将RANSAC与其结合,通过实验与仿真模拟检验了RANSAC算法的可靠性,并与传统的最小二乘法进行了对比分析研究。

  1波长调制激光光谱技术

  1.1基本原理

  依据吸收光谱基本理论-朗伯比尔定律,激光经过长度为L的均匀气体介质后透射系数为:

  (1)

  假设一个频率为ω的正弦调制信号叠加到激光器的驱动信号中,调制后的激光频率和强度分别为:

  (2)

  (3)

  其中和分别为频率调制振幅和强度调制振幅,为两种调制效应之间的相位差。

  综合上述,时间依赖的透射系数以傅里叶余弦级数展开为:

  (4)

  其中为n阶傅里叶级数,满足以下条件:

  (5)

  通过选择适当的调制振幅,可使得谐波信号达到最大值,最佳化的调制系数m可定义为:

  其中为分子吸收线型线宽(半高半宽:HWHM)。基于以上公式,计算出的前四阶谐波信号如图1所示。

  图1波长调制光谱不同谐波信号.

  图2波长调制光谱实验装置示意图。

  典型的波长调制实验系统中,如图2所示,通常利用信号发生器产生锯齿波或三角波扫描信号叠加快速正弦频率f的调制信号给激光驱动器,实现激光器的波长扫描和调制,激光器输出的扫描激光经在准直器中提高能量密度变为平行光束后,射入气体吸收池被待测气体所吸收,吸收后的光强在之后进入光电探测器,光电探测器可以将经过吸收强度衰减的光信号转变电信号,此时,经光信号转换成的电信号输入进锁相放大器,锁相放大器对信号进行二次谐波检测后,再将调制得到的高频正弦波信号送入激光控制器,对激光器输出波长进行调制,数据采集卡收集调制后的二次谐波信号,进而使其可以在计算机中进行相关的处理,进而可以根据谐波信号的值计算得到此时气体的浓度值。

  随着计算机技术的发展,我们可以利用计算机在虚拟仪器平台实现对TDLAS结合WMS技术的模拟。至今为止,仍有相当一部分吸收波段未被TDLAS结合WMS技术的商业化可调谐半导体激光气体分析所覆盖,因此,我们仍可以通过模拟各类不同的光学变量与气体参数的波动对测量结果所带来的影响,加深我们对该技术中所发生的具体物理过程的理解,从而为我们进行实验时的参数设置提供有益的经验,同时对技术的实际应用的可能性与相应条件做出合适的评估。直至今天,波长调制激光光谱技术已经在实时气体检测,燃烧场诊断等领域具有了非常广泛的应用,对于推进各类科研工作有着相当大的意义。

  1.2二次谐波信号处理

  在波长调制光谱技术的具体应用中,首先应标定系统,进而才能进行反演以得到所测量样品的具体浓度,且已知样品的浓度与测量所得二次谐波信号间为正比关系,因此可通过两者间的对比计算消去所有其他参数,进而排除包括参考光强在内对的各项干扰,得到准确的样品浓度。因此需要通过线性拟合的手段,可以得到未知样品浓度和参考样品之间浓度的比值,进而就可以计算出未知样品的浓度。目前一般使用二次谐波信号峰值比值法与整个线型轮廓线性回归分析法作为进行计算的具体反演方法。前者仅仅研究样品信号与参考信号的单个峰值的比值,反演数据点较少,低浓度情况下容易受到干扰,精确度较低。后者则使用整个二次谐波信号的有效吸收线型,有着更多的反演数据点,因此能更为真实准确的反映出二次谐波信号之间的线性关系。现在一般使用最小二乘法进行二次谐波信号的处理,但由于各类系统噪音的存在,且最小二乘法将包括受到噪音严重影响的数据点同样纳入计算范围,因此往往受噪音的影响较大,使计算结果与实际情况出现明显误差,难以反映实验的真实结果。因此,本文将尝试引入随机抽样一致性算法进行数据处理,以求得到更为准确的二次谐波信号之间的线性关系。

  2随机抽样一致性算法

  2.1随机抽样一致性算法的基本原理

  RANSAC算法最早在1981年由FISCHLER和BOLLES共同提出用以解决LDP(Location Determination Problem)问题,是一种用于在一组包含着离群的被观测数据中估算数学模型的参量的迭代方法。其包含数个基本假设:(1)数据可分为“局内点”与“局外点”两种,其中“局内点”指可被采用为模型一部分的数据(2)“局外点”指不能适应该模型的数据。“局外点”产生的原因噪音影响;错误的测量方法;对数据的假设存在问题等等;(3)每给定一组局内点(通常仅少量数据组成),则存在一个可以通过该组数据拟合出具体模型的过程。

  具体的实现步骤可分为以下几步(1)从原始数据中选择出一个可用于拟合模型的“最小数据集”,例如拟合Homography矩阵需要四个数据点,而进行直线拟合时仅仅需要两个;(2)通过该组的拟合计算,估计出一个数学模型;(3)将所有原始数据代入所得模型,从而得到“内点”的具体数量(在一定误差范围内,符合该模型的数据数量);(4)比较当前模型和之前推出的最好的模型的“内点”的数量,记录最大“内点”数的模型参数和“内点”数;(5)若之前最好模型的“内点”数小于刚刚计算出的模型,则舍去前者;(6)重复1-5步,直到迭代结束(到达设定条件)或者当前模型已可以满足所需要求(内点数目大于一定数量)。

  尽管一般而言,迭代次数越多,所取得的数据越精确,但在实际操作中显然不能无限次的进行迭代,一般所需要的迭代次数可以通过如下方式计算:

  假设“内点”在数据中的占比为t,内点数目为,外点数目为,则显然

  那么当每次计算模型使用N个点的情况下选取的点至少有一个为外点的概率是

  因此在迭代k次的情况下,就是k次计算迭代模型都至少采样到一个外点去计算模型的概率,那么采样到的N个点均为内点并且计算出正确模型的概率为

  上式取对数,可以得出迭代次数k为

  选取内点的概率t通常是一个先验值,对t的选取会直接影响到对外点与内点的判断,若t值较大,则可能将噪音判断为有效值,导致结果的误差变大;若是t值较小,则将有效的内点排除出了模型,导致最后计算出的模型无法正确体现实际情况。针对该问题,本文引入绝对中位差(median absolute devation,MAD)来估算整个数据的方差,设选取的数据子集为,则绝对中位差的表达式为

  =

  其中,median为所求数组的中值函数,|*|为求绝对值的符号,i与j均为数据子集的位置。选取内点额概率t首先选取,以该模型去检验其他实验数据,当数据点到拟合直线的距离小于该值时,则取该点为内点,否则为外点。

  最小二乘法与RANSAC算法相比,不会将外界影响所产生的“局外点”排除出计算,包括噪音在内的所有数据均参与计算,也导致了最终计算结果的误差较大。而随机抽样一致性算法尽可能的排出了外点的干扰,因此具有更高的精度,更适合于该实验的数据处理。

  2.2随机抽样一致性算法程序设计

  本文使用python语言实现通过RANSAC进行拟合,需要使用包括numpy在内的第三方库,一个简单的RANSAC算法的流程如图3所示[5][6]。

  图3 RANSAC算法流程图

  RANSAC算法的优点是它可以较为精准的的估计模型参数,计算过程具有较好的鲁棒性。例如,它较为精准的排除原始数据中的大量局外点。RANSAC的缺点是该算法是一种不确定性算法,当不进行具体设置时,它将无限次的运行下去;若人为设置迭代次数的具体上限,则难以确认所得模型是否符合相应要求。RANSAC得到正确模型的概率与迭代次数具有正比关系。也正因此,RANSAC的另一个缺点是它要求设置跟问题相关的阀值。

  同时RANSAC算法仅能估计出一个具体模型,当有多个模型可满足具体需求时,RANSAC算法只能求出其中一个,并排除其他的模型。该缺点严重的限制了算法的应用。

  RANSAC算法常用于计算机视觉相关研究中,例如同时求解相关问题与估计立体摄像机的基础矩阵,图像拼接时求变换矩阵等问题。利用于SLAM中时,则常常被用于滤除误匹配,具有相当广泛的应用[7]。

  3随机抽样一致性算法与最小二乘法的对比分析

  3.1理论模拟数据分析

  本文通过Python语言编程对波长调至二次谐波信号进行仿真研究。设不含白噪音,体积分数为的甲醛的二次谐波信号作为参考信号A,体积分数为的甲醛二次谐波信号为待分析信号B,并对待分析信号添加不同幅值X的噪声,进而对RANSAC与LSM两种线性拟合模型进行对比与评估[8]。图4a~图4d为加入了不同信噪比(signal-to-noise ratio,SNR)白噪音的仿真模拟二次谐波信号,其中横坐标为采样点数,无单位。图5a~图5d为通过算法拟合出的线性结果,最终拟合结果如表1所示。从拟合结果中可以看出,当信噪比较高时,RANSAC与LSM均可得出较为精确的结果,难以分辨出两种算法的优劣;当噪声幅值逐渐增加,信噪比逐渐降低时,RANSAC算法更能体现出数据间真正的线性关系,其线性相关度显著高于LSM,拟合结果的比值(slope),即线性拟合的直线的斜率也更接近真实值2.0.

  图4噪音级别A分别等于0,5,10,20,50时,添加了白噪音的二次谐波信号

  图5通过RANSAC与最小二乘法,对数据所进行的直线拟合结果

  Experimental

  results slope

  LSM RANSAC LSM RANSAC

  A=0 1.0 1.0 1.0 1.0

  A=5 0.9811 0.9921 1.9798 2.0101

  A=10 0.9371 0.9831 2.0109 1.9997

  A=20 0.8002 0.9399 2.0199 2.0019

  A=50 0.2651 0.7473 1.6951 1.9129

  表1

  3.2实验数据处理分析

  通过对于具体实验数据处理结果的对比分析,可以更加详细具体的评估出两种不同算法的优劣之处,下面将两种算法模型运用到实验中所记录的大气甲醛二次谐波信号处理中。实验测量系统如参考文献中所记录[9]。由于大气中的甲醛含量非常低,因此实验中直接测量所取得的光谱信号的质量难以满足要求。但实验中所获得的二次谐波信号与气体分子浓度C之间满足以下的线性关系:

  其中,为激光的初始强度,a为甲醛分子的吸收系数,L为有效吸收光程[10]。由该式所表现出的正比例关系可知,样品的二次谐波信号之间的比值等于样品各自浓度的比值。因此,将未知浓度的样品信号与已知浓度的参考样品信号对比,便可消去初始光强,得到两个样品间甲醛浓度的比值,进而推断出未知浓度样品的具体甲醛浓度。本文下面将通过已知浓度的甲醛样品的信号,评估相关算法的可靠性。图4a为不同体积分数的两份甲醛的二次谐波信号(signal_1:;signal_2:),其信号基线部分受到来自采集系统的噪音的干扰较为严重。分别以signal_2与singal_1的数据点为横纵坐标,绘制散点图并分别使用最小二乘法与随机抽样一致性算法进行线性拟合后所拟合出的两条直线如图4b所示,最终拟合结果为表2。由图可知,最小二乘法将内点与外点共同纳入了处理范围,而RANSAC算法则成功排除了噪声干扰影响所造成的外点,进而大幅度的提高了拟合结果的可靠性与准确性。

  图6不同体积分数的两份甲醛的二次谐波信号与两种算法拟合结果

  formaldehyde

  LSM RANSAC

  actual raito 1.20 1.20

  Fitted value 1.1818 1.1818

  Correlation coefficient 0.8923 0.9854

  error/%1.517-0.18

  表2

  对以上的两种实验结果进行分析,可得出相应结论:当二次谐波信号的信噪比较高,噪声干扰可以忽略时,两种不同的拟合方式均能得出较为精确合适的结果;当信噪比较低,噪音干扰严重时,RANSAC算法能够成功排除局外点的影响,获得更加准确的实验结果,具有较高的鲁棒性。