主页 > 案例大全 > 论文案例大全-基于FFT的语音信号频谱分析

论文案例大全-基于FFT的语音信号频谱分析

2021-04-24 13:10:32

  进入21世纪以来,我国的电子技术以及信息技术得到进一步额发展,基于数字信号处理的各种技术也已经较为成熟。多媒体、计算机、图像信号和语音信号的手机处理等都在通讯领域得到了较大的应用。快速傅里叶变换(FFT)作为语音信号处理的理论基础,促进了我国语音以及图像处理技术的发展。因为它大大减少操作时间相比较于直接计算离散傅里叶变换(DFT)。作为更有利于语音信号处理的应用程序,其提供了语音信号处理技术的优势在各种信号的实时处理。因此,本文对FFT算法及其实现设计方法的深入研究,对其进一步的发展应用起到了非常重要的科学理论指导和实践的意义。

  本文首先研究了快速傅里叶变换(FFT)的相关意义、背景以及发展状况,继而研究了相应的实质以及其处理语音信号的原理。此外,本文运用FFT进行了相应的语音信号的模拟,从而进一步的用FFT完成语音信号频谱的分析。

  1.1研究背景

  语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的系统,它是第一个可以识别十个英文数字的语音识别系统。但真正的科学研究已经取得了一些实质性的重要进展,并将其主要进展成果作为一个重要的科学研究课题一并继续进行开展的科学研究则仍然有很多可能特别是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和语音软件的无缝结合不仅是一种可能,更重要的一点也就是我们可以通过利用一种语音处理信号技术进行一种线性的时间预测和语音编码(LPC)的语音技术和利用语音处理信号形成动态的运行时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和等长匹配问题。这一时期的企业语音图像识别主要基于传统模板语音匹配的基本原理,研究的技术对象和应用领域主要还是局限在一些基于特定人、小组的词汇和图表以及孤立的单词进行语音预测识别,实现基于W的线性单词语音自动预测识别倒谱和基于DW线性语音预测识别倒谱技术的两个特定人群对孤立的单词进行语音预测识别之间的语音系统;同时他还提出了基于孤立的单词的语音矢量和数量化(VQ)和马尔可夫模型(HMM)的综合理论。

  随着应用领域的扩大,小组词汇表、特定人、孤立词等这些对语音识别的约束条件的使用限制显然需要进一步加以放宽,与此同时也给新的词汇表使用带来了许多新的技术问题:第一,词汇表的使用范围需要扩大,这样就使得许多词汇表的使用模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的没有边界,各个不同发音的字母单位之间可能存在一种直接受现代英语发音上下文强烈变化影响的辅音协同形式发音(co-articulation)现象;第三,非特定人群进行识别时,不同的特定人群可能说相同的普通话,相应的语音声学特征可能会有很大的差异,即使相同的两个人在不同的时间、生理、心理状态下,说同样内容的话也可能会说有很大的语音差异;第四,识别的模板在语音中有任何背景噪声或其他的干扰。因此与原有的语音识别模板匹配方法已不再适用。[1]

  实验室语音图像识别技术研究的巨大进展和突破产生于20世纪80年代末,在这里进行的实验地一次突破了大量的词汇量、连续识别语音和非识别特定人这三大类的语言障碍,第一次把这三个语言障碍的基本特性都集成在一个新的语音识别系统中,比较典型的识别系统主要是基于美国卡耐基梅隆大学的一个phinsphinx中的语音识别系统,它也是第一个实现能够有效提高语音识别性能的非针对特定人、大多数词汇量连续词的语音识别系统。

  此后,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音和图像识别等领域中的成功得到广泛应用。HMM网络模型的广泛应用当然也应该更多地归功于等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而这也使得统计图像识别方法已经成为了新一代语音图像识别技术的一个主流。同时fft也作为了离散傅立叶变换的快速算法,可以将一个时域信号快速变换到频域。有些信号在这个时域上是很难准确地看出什么是频域特征的,但是如果变换到频域之后,就很容易看出特征了。这就是很多信号分析采用FFT变换的主要原因。另外,FFT可以将一个分辨率信号的频谱准确地提取出来,这在频谱信号分析的方面也经常被使用的。

  1.2研究意义

  如今语音信号处理技术已经取得了很大进步,但是目前还是存在很多问题,如当前录入的视频语音持续时间老化变短、背景音的噪音影响范围变化过大、信道质量失衡等等。有鉴于此,仍然非常需要将现有诸多语音技术应用方面的关键问题解决需要进一步探究和完善。[2]

  (1)目目前实际使用的传统语言学概率模型只是一种概率模型,没有直接应用到以传统的语言学概率模型为理论基础。因此我们需要帮助计算机准确地理解和使用人类的语言,需要使用优化录入的方法。如特征提取、搜索算法、自适应搜索算法等等。

  (2)在一些复杂的词汇语音识别技术方面,计算机所能够呈现的语音识别模型太过于局限。例如当用户输入“信噪比”这个简单的词汇,计算机会自动显示其错误或者不符合规范。此外,现实和虚拟世界的一种声音形式是多种多样的,当标准发音和高于标准的其他声音有了区别没有区别或者的声音较大时,计算机或者其他电子设备将不能识别或者说识别错误。

  (3)语音端点的检测结果受背景噪音的稳定性影响很大,这就是需要进一步研究和改进的技术或方法使其受环境影响更小。

  (4)不同的特征之间按一定的法则组合后对识别率具有影响,因此还需要优化相应的算法减小影响。

  (5)在目前的关于语音瞬间时长规整的相关技术性和基础理论研究,有待进一步深入分析研究新的语音时长正弦函数模型,从而能够帮助我们改善语音合成等技术。

  语音信号处理属于信息科学的一个重要分支,它是研究用数字信号处理技术

  对于利用语音和数字信号技术进行信息处理的一门具有综合性质的新兴学科,同时又是一门具有综合性的多媒体学科研究领域和重点研究课题涉及面很广的是交叉学科。因此我们所需要进行的语言信号的处理具有一个划时代的重要意义。首先要学会如何运用FFT的信号滤波处理的主要功能,采集多个语音音频信号,并对其中的一个语音音频信号时域进行音频滤波及变换处理,观察其中的时域和频域的特性,加深对传统的信号处理系统理论的认识和理解,这为今后熟练使用FT进行系统的信号分析仿真和设计奠定基础。而随着人们对语音技术的需求和重视,基于FFT的语音信号处理技术必将快速发展和具有很大的提高,其应用的范围也会越来越大,并且语音技术的应用价值需要人们继续发现和挖掘。

  1.3国内外研究现状

  20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音信号处理系统的实用化研究投以巨资。语音信号处理技术有一个很好的评估机制,那么就是提高信号图像处理的运行速度和信号准确率。而这项重要的技术指标在20世纪90年代中后期就在实验室的科学研究中已得到不断的改进完善和不断提高。

  我国的语音图像识别技术的研究和推广工作虽然起步于五十世纪六十年代,但近年来学术研究发展很快。学术研究的水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音处理技术研究专门立项。目前中科院自动化所、声学所、清华大学、北京大学的高校及其研究机构等单位在大词汇连续应用和语音信息处理系统上的学术研究工作水平已经提高接近百项国际先进工程技术指标。其中比较重要具有一定国际性与代表性的国家重点学术研究所与合作项目单位为国立中国清华大学无机电子系统工程系与中科院自动化技术研究所模式识别中心目前是一个国家一级重点科学实验室。

  清华大学电子工程系国际语音处理技术与应用计算机科学专用软件语音处理芯片技术研发与生产设计合作课题组,研发的非广泛适用于特定语音人群的标准汉语数码串连续的语音和信号数据处理系统的识别和精度,达到94.8%和96.8%。在美国有85%的情况下,系统识别率可以达到96.9%和98.7%,这是目前国际最好的识别结果之一,其技术性能已经达到非常接近国际实用的水平。

  此外中科大讯飞的输入法在语音和信号的处理功能方面也可以达到了国际先进水平。中科院自动化所及其所属模式科技公司2002年发布了他们共同推出的面向不同于云计算应用平台和涉及移动端不同应用的“天语”系统,分别推出了所有中文数字语音视频识别传统系列产品,结束了所有中文数字语音视频识别传统系列产品自1998年以来一直由国外进口公司直接进行市场垄断的漫长发展历史。

  电子科技大学钟林鹏等人的研究团队人员还创新优化了目前语音识别信号频谱检测处理技术主要研究方法之一的语音功率和频谱分析算法,从而使语音信号检测更加精准。[3]

  山东大学王京辉等人通过对合成的语音数据进行适当的语音处理参数的控制和自动调整从而进行修改变了二次谱提取基频算法,提高了基频提取的准确度,进一步提出了一种新的机遇需要改进二次普的视频语音缩短时长规整时短算法,该缩短规整时长算法。在保持提高语音时长质量的需要同时,有效地可以降低整体语音计算的复杂度。作者介绍软件采用了CVC++和matlab混合语言编程的思想,利用了该软件可实现<以快速实现语音信号变速和变声信号处理两功能。[4]

  哈尔滨工业大学的教授游大涛等十余人通过学术研究和开发优化了基于声学声波特征的鲁棒特征提取的分析算法等并改进了在声音较好的低噪音识别条件下的模拟语音声源活动性图像识别技术检测相关技术,此外该合作者还进一步研究提出了在鲁棒性识别检测技术方面语音性能分别优于mfmfcc和lplplp的语音活动性识别检测的研究方法——基于模拟语音音频声源活动分离识别机制的一种基于语音声源活动性图像识别技术检测相关技术的研究方法。[5]

  大连理工大学汪林等十余人在这项研究中率先提出了近似基于幅度个性对数hrft的职位幅度基于高级主管助理职位幅度选择的方法、基于个性对数的职位幅度误差最小化的CAPZ模型、基于共极点/零点(CAPZ)模型串生消除法、结合盲源分离和处理语音波束形成的语音联合信号分离等语音处理方法,这些语音处理方法有效地改善了语音联合信号采集和处理的技术在噪音环境下的语音识别能力和盲源分离处理能力。[6]

  北京交通大学王杏等研究人先后提出基于噪声谱面曲线变化改进法和加减法的噪声谱面曲线变化估计、噪声幅度变化补偿的谱线改进法、噪声谱面曲线改进加减法,该方法在有效率地消除了语音噪声的损害同时它还能有效率地减少和同时避免冤噪声信号所接收到的噪声损伤从而有效减少了噪声影响源的混叠并与语音的噪声信号进行分离。

  2.理论概述

  2.1快速傅里叶变换(FFT)

  快速傅里叶变换(Fast Fourier Transform),即快速利用计算机快速计算的离散傅里叶变换(DFT)的高效、快速计算方法的统称,简称FFT。快速傅里叶变换是1965年由J.W.库利和T.W.图基提出的。如果采用这种算法能直接使得计算机可以计算离散傅里叶变换所乘法需要的最大特点之一是可以使得的乘法函数变换计算次数大为幅度减少,特别重要的是被称为乘法函数变换的点所抽样的节点数量的n越多,FFT变换算法由于需要减少计算量的剩余时间对其节省就越显著。[8]

  法国的数学家和物理学家傅里叶于1822年提出任何连续周期的信号都完全可以分解为无穷多个不同信号频率的正交余弦信号的和,这个级数就是傅里叶级数。傅里叶变换就是余弦级数求得傅里叶系数的整个过程。傅里叶变换广泛的应用与多个领域。根据信号的一些特性,例如周期与非周期性、连续与非全周期的连续性,可以把傅里叶变换的特性分成以下四种不同的形式:

  (1)周期为T0的连续时间周期信号的傅里叶变换可以表示为:

  (公式2-1)

  此即傅里叶级数,这种信号的代表信号有周期方波信号和正弦信号。

  (2)连续时间非周期信号x(t)的傅里叶变换表示为:

  (公式2-2)

  此即傅里叶变换,这种信号的代表信号有指数衰减信号和高斯信号。

  (3)周期为N的离散周期信号[t]的傅里叶变换表示为:

  (公式2-3)

  (4)周期为N的离散周期信号x[t]的傅里叶变换表示为:

  (公式2-4)

  此即离散时间傅里叶变换。

  FFT的基本计算方法思想就是把原始的两个n点整数序列,依次先后分解成一系列的短多点序列。利用函数DFT来计算式中每个周期指数对称因子所对应具有的对称函数性质和每个周期对称性质,进而我们可以直接求出这些短序列相应的DFT并进行适当的组合,达到减少删除和重复的计算,减少了乘法的运算和简化序列的结构。此后,在这些科学研究方法思想的综合基础上又逐步研究开发了高基和离子分裂基等快速分析算法,随着又逐步发展了大量数字技术的高速不断发展,1976年后又逐渐出现了许多建立在现代数论和多项式的基础理论研究基础上,如维诺格勒傅里叶变换因子算法(WETA)和素变换算法分别是进行因子傅里叶变换的两种算法。它们的共同线性特点是就是当其中任何n个都是一个正的素数时,可以将DFT的每个运算函数循环卷积直接转化而成为每个乘法和在求解时的运算循环求积,从而更进一步地大大减少了每个乘法的计算次数,提高了在计算时的速度。[9]

  计算离散傅里叶变换的快速计算方法分别是有按照一定的时间顺序抽取的FFT算法和按频率抽取的FFT可以有两种不同算法。前者算法是将不同时域的每个信号频率序列按偶奇偶的方式进行分排,后者的信号算法规则是将频域每个信号的频率序列按奇奇偶奇分为小排。它们都可以认为是借助于的两个主要物理特点:一是高度周期性;二是高度对称性。这样,便显得可以把离散傅里叶变换的主要优点之一是将整个计算过程可以一次分成若干步连续多次进行,计算的工作效率大为显著得到提高。

  2.2语音信号处理

  2.2.1语音信号处理总体框架

  图2.1语音信号处理框架图

  语音识别信号处理系统的功能在本质上都属于模式识别系统的一个范畴,都是包含有特征提取、模板库有语音识别匹配、参考模板和数据库三个组成部分,语音识别的总体结构和框架。[10]

  从图2.1可以发现,处理过程中的语音层的声学模型、语言层的语言模型相关知识都包含在模板匹配的模型当中。机器最开始要根据人的发音特点建立相应的声学模型,对输入语音信号进行时域频域分析,并抽取所需的特征,在提取的特征参数基础上建立语音识别所需的模板库。而机器在识别匹配过程中,将输入语音信号的特征与模板库中的特征参数进行对比,根据所选建模方式,找出与之最为相近的模板参数,最终得到识别结果。显然,这种最优的结果与特征的选择、声学模型的好坏、模板是否准确都有直接的关系。

  2.2.2语音信号预处理

  作为语音信号处理的前提与基础,语音信号的预处理过程至关重要。在最终进行模板匹配的时候,是将输入语音信号的特征参数同模板库中的特征参数进行对比,因此,只有在预处理阶段得到能够表征语音信号本质特征的特征参数,才能够将这些特征参数进行匹配进行识别率高的语音信号的处理。当然,在对语音信号进行分析处理之前,首先要做的就是端点检测,把要进行分析的信号从原始语音输入信号中找出来。

  3.运用FFT处理语音信号频谱

  3.1相位处理

  虽然很多人都希望可以自己知道一个FFT的最终目的到底是什么,可是怎么样的方式去做,却不可以知道。FFT之后的结果是什意思?如何决定要使用多少点来做FFT?本文根据实际经验得出FFT两种采样所得结果的一种具体物理性和其在数学上的意义。一个数字模拟编码信号,经过了对于ADC的多次采样之后,就已经可以变成一个大于两倍的模拟数字信号。采样输出频率控制定理在事实上是告诉我们,采样的输出频率一定必须要远远大于数字模拟射频信号进入输出采样频率的两倍。[11]

  采样得到的数字信号,就可以做FFT变换了。N个采样点,经过FFT之后,就是我们可以直接计算得到对于其中N个有限小数点的所有FFT和点的FFT两个运算式的结果。为了这样能够方便我们分别进行一个FFT的代数运算,通常需要使用一个n取2的一个整数的二次方。

  假设一个信号采样点的两个频率波函数为用FFT处理,信号的频率波函数为F,采样点数为N。那么在FFT之后采样结果的一个复数形式就是一个为N这个采样点的复数。每一个不同频率发射点就共同的它对应着一个不同频率的发射点。这个特定频率波动点的幅度波动模值,就是该频率波动点在幅度模值下的一个频率波动幅度及其波动率的特性。具体跟原始射频信号的谐波幅度或者峰值之间有什么直接的相互关系呢?假设原始射频信号的谐波幅度值和峰值为A,那么以FFT的原始幅度值为结果的每个点(除了第一个点直流分量之外)的模值就是A的N/2倍。而第一个点就是直流分量,它的模值就是直流分量的N倍。

  而每个点的实际相位呢,就是在该频率下的直流信号的实际相位。第一个点表示直流的分量(即0Hz),而最后一个点N的再下一个点(实际上这个点是不存在的,这里是假设的第一条中心线是所有等于n+1个点在中心上的点,也就是我们可以简单地将它看做这就是将第一个作为中心点的部分做两半分,另一半的部分则是转移到最后)则表示采样频率Fs,这中间被N-1个点平均分成N等份,每个点的频率依次增加。例如某点n所表示的频率为:Fn=(n-1)Fs/N。由上面的公式可以看出,Fn所能分辨到频率为为Fs/N,如果采样频率Fs为1024Hz,采样点数为1024点,则可以分辨1Hz,1024Hz的采样率采样1024点,刚好是1秒。也就是说,采样1秒时间的采样信号并做FFT计算,则结果可以通过分析得到1hz,如果采样2秒时间的采样信号并做FFT计算,则结果采样可以精确分析到0.5hz。如果要大大提高采样频率和分辨力,则必须增加采样点数,也许这就是说立即测量采样的持续时间。一个频率点的信号频率采样分辨率和另一个点频率采样持续时间的长度概率关系是一个长度倒数的向量关系。因此这个假设是在FFT计算之后某点复数n用一个点的复数a+bi表示,那么这个复数的模就是An=根号aa+b*b,相位就是Pn=atan2(b,a)。

  根据以上的结果,就可以计算出:

  n点(n≠1,且n<=N/2)

  其对应的信号的表达式为:

  即:(公式3-1)

  对于n=1点的信号,是直流分量,幅度即为A1/N。由于FFT结果的对称性,通常只需要直接使用前半部分的精确频率采样获得分析结果,即可直接获得频率小于精确采样分析频率一半的精确采样分析结果。

  下面以一个实际的<s>信号来做说明。假设我们有一个信号,它含有2V的直流分量,频率为50Hz、相位为-30度、幅度为3V的交流信号,以及一个频率为75Hz、相位为90度、幅度为1.5V的交流信号。用数学表达式就是如下:

  (公式3-2)

  式中cos参数为弧度,所以-30度和90度要分别换算成弧度。我们以256Hz的采样率对这个信号进行采样,总共采样256点。

  按照以上的分析,Fn=(n-1)*Fs/N,可以知道,每两个点之间的间距就是1Hz,第n个点的频率就是n-1。我们的信号有3个频率:0Hz、50Hz、75Hz,应该分别在第1个点、第51个点、第76个点上出现峰值,其它各点应该接近0。实际情况如何呢?如图3.1所示。

  图3.1频率分布图

  从图中我们可以看到,在第1点、第51点、和第76点附近有比较大的值。我们分别将这三个点附近的数据拿上来细看:

  1点:512+0i

  2点:-2.6195E-14-1.4162E-13i

  3点:-2.8586E-14-1.1898E-13i

  50点:-6.2076E-13-2.1713E-12i

  51点:332.55-192i

  52点:-1.6707E-12-1.5241E-12

  75点:-2.2199E-13-1.0076E-12i

  76点:3.4315E-12+192i

  77点:-3.0263E-14+7.5609E-13i

  很明显,1点、51点、76点的值都比较大,它附近的点值都很小,可以认为零就是0。即在那些发射频率为零点上射频信号,其幅度函数值的大规模值一定为0。接着,计算各点的滤波信号频率幅度和波频率和矢量模值。分别计算这三个不同频率测量点的振动幅度值和模值,结果及其计算公式显示如下:

  1点:512

  51点:384

  76点:192

  按照公式,可以计算出直流分量为:512/N=512/256=2;50Hz信号的幅度为:384/(N/2)=384/(256/2)=3;75Hz信号的幅度为192/(N/2)=192/(256/2)=1.5。可见,从频谱分析出来的幅度是正确的。然后再来计算相位信息。直流信号没有相位可言,不用管它。先计算50Hz信号的相位,atan2(-192,332.55)=-0.5236,结果是弧度,换算为角度就是180*(-0.5236)/pi=-30.0001。再计算75Hz信号的相位,atan2(192,3.4315E-12)=1.5708弧度,换算成角度就是180*1.5708/pi=90.0002。可见,相位也是对的。根据FFT结果以及上面的分析计算,就可以写出信号的表达式了,它就是开始提供的信号。[12]

  由此可以得出假设采样频率为Fs,采样点数为N,做FFT之后,某一点n(n

  从1开始)中所表示的零点频率可用公式定义为:Fn=(n-1)*Fs/n;也就是该点的频率是零点的一个模值函数除以其中的函数N/2,就是对称的应该频率下的相位系数。该交流信号的幅度(对于直流信号频率下的交流信号来说也就是它的相位系数除以n);而对于该交流信号某一点的幅度和相位即是对于具有相应信号点在频率下的信号的相位。信号相位的计算可用要求坐标函数的表达式atan2(b,a)进行计算。atan2(b,a)坐标函数是形式要求信号坐标的相位为(a,b)点的角度采样值为角度值,范围从-pi一直延伸扩大到了-pi。如果只需要精确采样观测速度到xhz,则我们通常需要准备有一个精确采样持续时间短且长度大约为1/x秒的观测信号,并做FFT。要提高频率分辨率,就需要增加采样点数,这在一些实际的应用中是不现实的,需要在较短的时间内完成分析。解决这个问题的方法有频率细分法。比较简单的采样方法之一就是首先采样比较短一段时间的信号,然后在后面继续补充一定长度数量的0,使其长度能够达到采样所需要的点数,再把它做FFT,这在一定的程度上我们就能够大大提高信号频率的分辨力。

  3.2基于傅里叶变换的语音信号频谱分析

  傅立叶变换幅度的平方是信号x(n)在时间n处的频谱能量密度函数。因为当我们把x(n)看成是能量有限信号时,其频谱能量在频域是连续分布的,只能以密度函数的形式给出。不难证明,它是信号x(n)的短时自相关函数的傅立叶变换,即:

  (公式3-3)

  其中短时自相关函数定义为:

  (公式3-4)

  在实际计算时:一般用离散傅立叶代替连续傅立叶变换,这就需要对信号进行周期性扩展,也就是把一个信号滤波信号x(n)(n)看成也就是某个信号周期性滤波信号的一个扩展周期,然后对然后对它作离散傅立叶变换,这时得到的是功率谱。值得注意的是,如果窗长为L,那么x(n)(n)的长度为L,则Rn(k)的长度为2L。如果我们对x(n)(n)以L为周期进行扩展的话,在自相关域就会出现混叠,即这个周期函数的循环相关在一个周期中的值就与线性相关Rn(k)的值不同了,这样得到的功率谱只是真正功率谱的一组欠采样,即L个采样值。若想得到功率谱的全部2L个值,可以在x(n)(n)之后补L个零,将它扩展成为周期为2L的信号再作离散傅立叶变换。这时的循环相关与线性相关才是等价的。[13]

  其次为它是二维的功率能量谱和密度微分谱函数尺其中pn(w)(或二维功率能量谱密度函数)而不再是二维的非零为负值或实值的二维功率能量谱密度函数。用时间n(w)可以作为横的横或纵纵向坐标,w值则作为一个纵的纵或横纵向坐标,将二个三维空间图像pn(w)的灰度值通过表示为灰度级所得而构成的二维空间图像,也就是语谱称为分频曲线图,英语中又可简称为Spectorgram。这种高频频谱图主要反映了一个语音信号分频器中信号的一种动态和固定频谱,在高度特性的时候高频图在表示语音分析中语谱图具有重要实用价值,被广泛称为一种可视分析语言。语谱图的区别是时间分辨率和频率时间分辨率的区别是语谱图的时间分辨率和频率分辨率是由所用窗函数的特性决定的。我们仍可通过前节两种解释来估计它的时间、频率分辨。[14]

  先看频率分辨率。假定时间固定,例如n=n0,对信号乘以窗函数w(n)的作用,在频域相当于用w(n)的频率响应W(ejw)与信号频谱相卷积。设W(ejw)的通带带宽为b,那么它在频率可分辨的频率宽度即为b。这就是说,卷积作用将使相隔的频率差小于b的任何两个谱峰都合并为一个单峰。因为对于同一种窗函数而言,其通带宽度与窗长是成反比的,因此,如果希望频率分辨率高,则窗长应尽量长一些。

  3.3 FFT分析语音频谱的优势

  傅氏分析的应用几乎遍及所有的科学技术领。在推导时己经看到傅氏频谱的定义式,尽管存在不合理之处,但其仍被应用在语音信号的频谱分析上。计算傅氏变换是一门比较古老的数学,数字信号处理的兴起使它发展得更加成熟,单一频率(w)的谱(幅度和相位)要用到从过去到未来的所有信号值。事实上某一频率或部分频段的谱只和信号的部分时间内的值有关,并不是信号的所有值一起作用的结果。我们知道频率的概念先于傅氏变换,它是在时域里被定义为单位时间内变化的周期数。因此变化快的信号频率高,变化慢的信号频率低。这种模糊的频率和时间关系,在傅氏分析里反而变得简单明了。傅氏变换能明确地、定量地表明某一频段的谱来自哪一段时间的信号。正是这一点使傅氏分析有时显得很实用。例如用FFT计算一个非周期的、时间连续信号的频谱就较为明确:先要滤波限频,后抽样量化,再加窗截断,时间平移,最后进行FFT变换,对变换的结果再乘上一个比例因子。每一步都相当明确,最终结果也会只是所求频谱的值。[15]

  如此,傅氏变换仍然是谱分析和谱估计的基础,它所树立的变换观点是影响深远的。如今人们在时域或空域求解问题遇到困难时,会自然地想到变换域去寻求解法,无数的例子证明了变换的思想方法的强大生命力。人们沿着傅氏变换的思路,提出里适合各种应用的多种(正交)变换。近年来很活跃的所谓Fracatl变换,Lapped变换,特别是Wvaelet(小波)变换标志着谱分析和谱估计又开始了一个新阶段。这些新的变换一般用来进行“多分辨率(Mulitresolution)信号分解”或“时一频(同时)分析”,其主要应用之一就是图像信号处理。语音信号是一种典型的非平稳信号,可是我们前面介绍的语音分析和表示方法都是基于短时平稳假定,采用平稳分析方法进行分析的。尽管这些分析、表示方法在实际应用中取得了很大的成功,但是它们与人的感知能力相比还存在很大的差距。