老师整理————语音信号处理复习知识点-11南理工
§1.1 语音信号处理概述
一、语音、语音信号处理的名词解释
1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。
2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。它与语音学、语言学、声学、认知科学、生理学、心理学有密切关系。
3、语音信号的数字处理的优点:第二页第四段
二、语音学的名词解释
语音学:与语音信号处理存在十分密切的关系,是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感
知。
§1.2 语音信号处理的发展概况
1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。
2、语音合成:语音合成的目的是使计算机能像人一样说话。
3、语音识别:语音识别是使计算机判断出所说的话的内容。
§2.2 语音产生的过程
一、语音、清音、浊音
1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。语音是声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高可达15kHz左右。
2、浊音、清音:语音由声带振动或不经声带振动来产生,其中由声带振动产生的音
统称为浊音,而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。
二、语音的产生过程(人体发出声音的基本过程):人类的语音是由人体发音器官在大脑控制下的生理运动产生的。空气从肺部排出形成气流,冲击声带,如果声带是紧绷的,则则形成准周期性脉冲的空气流,产生“浊音”。若声带完全舒展,则形成摩擦音或爆破音。经过声道调制的空气流最后从口或鼻腔辐射出来,形成语音。
语言交际:通过连接说话人大脑的一连串心理、生理、和物理的转换过程实现的。这个过程包括:发音-传递-感知。因此现代语音的三个分支:发音语言学、声学语言学、听觉语言学。
三、基音周期、基音频率
基音周期:声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。
基音频率:基音周期的倒数称为基音频率,简称为基频。
四、浊音、清音、爆破音的激励源
对于浊音、清音和爆破音来说,激励源是不同的,浊音语音是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流,而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。
五、共振峰的概念
1、共振峰名词解释:声道是一个分布参数系统,它是一个谐振腔,有许多谐振频率,称为共振峰,它是声道的重要声学特征。
2、共振峰的公式:Fn=(2n-1)c/4L(会运用公式进行计算,填空、选择,见书第8页)
3、谐振点间的间隔不同,但平均仍然大约为每1KHz有一个谐振点。
4、声道的共振峰特性决定所发声音的频谱特性(音)。
5、头三个共振峰最重要。
§2.3 语音信号的特性
一、语音的物理属性
语音的物理性质包括音质、音调、音强、音长等特性。语音是人的发音器官发出的一种声波,具有声音的物理属性。音质是一种声音区别于其他声音的基本特征;音调指声音的高低,取决于声波的频率:频率高则音调高,频率低则音调低;响度是指声音的强弱,又称音量,它是由声波振动幅度决定的;声音的长短也称音长,它取决于发音持续时间的长短。
周期信号的傅里叶变换公式
二、音素、音节、单词、句子的基本概念以及它们之间的关系
(1)音素是语音的最小、最基本的组成单位,音素都有其独立的各不相同的发音方法和发音部位,它是使听者能区别一个单词和另一个单词的声音的基础。
(2)音节是最小的语言片段,一个音节由一个或几个音素组成。
(3)单词是由音节结合而成的更大单位,是有意义的语言的最小单位。
(4)句子是单词的进一步组合。
三、汉语的特点是:音素少、音节少。
汉语中的音节即字音由声母、韵母和声调按一定方式构成,即声、韵、调三个因素构成。
四、语音频谱特性其中虚线称为谱包络,其形状是由H(f)和G(f)的包络乘积得到的。
五、清音和浊音的频谱特性
清音和浊音的波形有很大的不同。清音的波形类似于白噪声,具有很弱的振幅;元音(浊音)具有明显的准周期性,并具有较强的振幅。它们的周期对应的频率就是基音频率。如果考察其中一个周期,还可以大致看出其频谱特性。
§2.4 语音信号产生的数学模型
一、语音信号的数字模型
1、语音信号数字模型的概念:语音信号被看成是线性时不变系统(声道)在随机噪声或准调周期脉冲序列激励下的输出。
2、语音信号的产生模型框图P16
3、语音的产生过程(具体见考题)
二、发不同性质的音时,激励的情况是不同的,大致分为两类:(1)发浊音时,此时气流在通过绷紧的声带时,冲激声带产生振动,使声门处形成准周期性的脉冲串。声带绷紧的程度不同时,振动频率也不同,这个频率就是音调频率,其倒数为音调周期。不同人的音调周期是不同的,男子大,女子小,老人大,小孩低。(2)发清音时,此时声带松弛而不振动,气流通过声门直接进入声道。
三、语音信号数字模型的组成等
1、语音信号数字模型由激励模型、声道模型和辐射模型组成。
2、声道模型包括声管模型和共振峰模型。
3、共振峰模型又可分为级联型、并联型和混合型。
四、语音信号数字模型的框图:P21 图2-18
图中,清/浊音开关模拟了加在声道上的激励的改变情况:当开关接在浊音位臵时,激励源是准周期脉冲序列发生器,其重复频率由基音频率来确定;当开关接在清音位臵时,激励源是随机噪声发生器。
§2.5 语音感知
一、声音的三要素:响度、音调和音。任何声音的都可以用声强的三个物理量表示:幅度、频率、相位。
1、响度:响度是人耳对声音强弱程度的主观反应,响度取决于声音的幅度,主要是声压的函数,但和频率和波形也有关,单位是宋(sone)。人耳对3000-4000Hz的声音
感觉最灵敏。
2、音调:也称音高,是一种主观心理量,是人耳对声音频率高低的感受,即与声音的频率有关。音调与声音频率近似为对数关系,还与声音的强度及波形有关,单位是美(mel)。