语音识别技术

“Speech Technology is The Next Big Thing in Computing!(语音技术是计算机行业的下一个重点)这句曾经出现在美国《商务周刊》封面上的论点,给记者留下了十分深刻的印象。从目前的技术来看,要使高科技的IT产业真正走向大众生活,充分利用语音技术、将语音技术与数据技术结合是必然趋势。言丰科技的梁康忠博士说:语音技术是当今迅猛发展的电子商务经济最重要的推进器之一,该市场正在迅速成长,且发展势头良好。有国外的分析家预测,从2000年到2005年,语音技术市场将以每年31%的速度持续增长。语音技术市场的迅速扩展,意味着我们正面临着大量部署语音应用的转折期。
提到语音技术,更应该强调语音识别技术。因为只有系统能够自动识别语音内容,才能真正实现全程智能化、自动化。同时,只有当大家真正认识到语音识别技术在通信系统中所起到的核心作用时,才标志着语音应用进入到了一个新的阶段。
以往,我们都比较熟悉IBMViaVoice等个人识别软件,但真正带来最大利润的还是企业级语音识别软件。企业级语音识别软件往往可被扩展为一个平台,集信息查询、信息点播、交易处理、统一消息四大功能模块于一体,很多人称之为语音门户。目前,常见的语音解决方案的供
应商主要是IBMNuanceSpeechWorksPhilips,以及香港言丰科技。
在很多人对实现语音功能颇为挠头的时候,言丰科技高级系统开发经理周鲁生却说:“语音识别技术的门槛其实不高。语音识别技术需要对语言规律的高度理解,因此,对于汉语识别系统,中国的公司在核心模块二进制级别对汉语的双字节处理上要具有很多优势。并且,源语音采集库的规模直接决定语音识别的范围和精确性,中国公司在这方面要大大占先。
现在,很多语音技术大多如此:先跟着指导练习一段时间,相当于与系统的磨合,然后再根据系统的提示,在声后开始说话,一问一答地完成此过程。语音识别的难度在于突破这种传统的非人性化、非灵活性的语音环境,实现一些新功能,包括:说话者可以随时开口,而相应系统随时都可觉察并录制、识别;说话者可以多种方言甚至多种语种输入,而系统能够识别出来;说话者在噪音非常大(甚至与说话者音量相当)的环境中说话,系统能识别出来等。言丰科技的语音识别系统目前已经能实现这些功能,人工智能会话断插(barge-in)、多语音混合识别和回声消除等,已使语音识别技术正在进一步获得突破。
梁博士认为,语音识别只是一种技术手段,它的应用不能脱离应用主体去单独实施,否则,语音技术开发者就不可能承接好各种应用项目。因此,在推动企业应用语音系统开展商务活动和进行内外部管理的时候,必须让集成商介入这个领域。而且,由于旧有的语音应用还处于一个比较低级的阶段,技术上的突破将会给这个领域带来重新洗牌的机会。
所谓语音识别,是指运用计算机系统对语音所承载的内容和说话人的发音特征等所进行的自动识别。比尔·盖茨曾预言:“以人类生物特征(指纹、语音、脸像等)进行身份验证的生物识别技术,在今后数年内将成为IT产业最为重要的技术革命。”近年来语音识别技术的迅速发展充分证明,这是一门很有实用价值并极具发展潜力的高科技,在军事领域也有其广泛的应用空间。对语音识别的研究可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,这是第一个可以识别10个英文数字的语音识别系统。20世纪80年代末,语音识别研究出现重大进展,一些小词汇量识别系统具备了较高的识别率,并在实验室里突破了大词汇量、连续语音和非特定人这三大识别障碍,第一次将这三个特性集成于一个系统中。20世纪90年代前期,语音识别研究掀起了第一次浪潮,IBM、苹果、ATTNTT等著名的大公司都对语音识别系统的实用化研究投以巨资。语音识别的准确率指标在20世纪90年代中后期实验室研究中得到显著提高。在我国,自从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。目前,我国语音识别技术的研究水平已经与国外基本同步,同时,在汉语语音识别技术上还具有一些特点和优势,达到了国际先进水平。我国语音识别技术具有代表性的研究单位是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。清华大学电子工程系语音技术与专用芯片设计课题组,研发的非
特定人汉语数码串连续语音识别系统的识别精度,达到948%(不定长数字串)和968%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到969%(不定长数字串)和987%(定长数字串),其性能已经接近实用水平。
一、语音识别基本原理
(一)语音识别主要对象
语音识别技术基于对语音的物理属性、生理属性和社会属性3个基本属性的分析。
1.语音的物理属性。所谓物理属性,主要包括音高、音长、音强和音4个要素。音高是指声音的高低,主要决定于发音体振动速度的快慢;音长是指声音的长短,主要决定于发音体振动时间的久暂;音强是指声音的强弱,主要决定于发音体振动幅度的大小;音是指声音的特,主要决定于发音物体振动所形成的音波波纹曲折形式不同。
2.语音的生理属性。所谓生理属性,主要指发音器官对语音的影响,包括肺和气管、候头和声带以及口腔、鼻腔和咽腔等发音气官。
3.语音的社会属性。所谓社会属性,主要表现在3个方面,一是语音与意义之间并无必然联系,它们的对应关系是社会成员约定俗成的;二是各种语言或方言都有自己的语音系统;三是语音具有区别意义的作用。
(二)语音识别系统基本内容
一个完整的语音识别系统大致分为3个部分:
1.语音特征提取。从语音波形中提取出随时间变化的语音特征序列。
2.声学模型匹配。声学模型是语音识别系统中最为关键的一部分,其目的是提供一种有效的方法,计算语音特征矢量序列和发音模板之间的距离。在辨识时将语音特征同声学模型进行匹配与比较,达到最佳识别结果。
3.语言模型与语言处理。语言模型包括由辨识语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。当分类发生错误时,可根据语言学模型进行判断纠正,特别是一些同音字,必须通过上下文才能确定其意义。
二、语音识别技术的主要功能
语音识别技术主要有以下4个方面的功能:
(一)声纹识别
声纹识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的一门技术。声纹识别的作用主要有两个方面:一是说话人辨认(Speaker Identification),主要用于判断某一语音材料是由若干发音者中哪一人所说,属于“多选一”的识别;二是说话人确认(Speaker Verification),主要用于确认某一语音材料是否由指定的某个人所说的,属于“一对一”识别。声纹识别赖以实现的基础是蕴含于语音信号中的说话人发音特征,这一技术强调说话人的个性,而不考虑以语音为物质外壳的话语意义。从本质上说,声纹识别技术属于“生物因子”认证范畴。声纹同指纹有着类似的属性。每个人的指纹都是唯一的,而声纹也是人的个性特征,很难到两个声纹完全相同的人。
(二)内容识别
内容辨识是对语音材料所承载的实际意义的识别。内容识别有别于声纹识别,声纹识别主要着于眼语音的物理属性和生理属性,以辨认或确认说话人为目的;而内容识别则着眼于语音
的社会属性,以识别语音信号所承载的话语内容为目的。话语内容识别比声纹识别要困难得多。说话人的语音通常会受到母语、方言、发音器官和发音状态等诸多因素的影响,正是因为说话人语音特征各异,才为声纹识别提供了可能性。但是,要将具有个性的声纹与具有共性的语法和语义模型相匹配,要通过词语切分、词性标注、结构分析和语境理解等程序,达到正确识别话语内容,则是一个相当复杂的处理过程。
(三)语种识别
语种识别是对语音材料所承载的语种特点的别识,是话语内容识别和机器翻译技术的重要基础。对计算机系统对多语种综合语音材料或不明语种单一语音材料进行识别时,要先把语音材料分拣到不同语种的识别器中进行识别,这时,就要通过语种识别技术发挥预分流作用。
(四)语音标准识别
语音标准识别是通过个人语音材料与语音标准模型的对照,对个人语音标准状况作出评判,并指出发音不标准的问题。这一技术可广泛应用于语言教学和语音标准测试。
三、语音识别技术的军事应用
语音识别技术在军事领域有着重要的应用价值。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的。目前,语音识别技术已在军事通信、军事保密、军事情报和指挥办公自动化等方面得以应用,在日常军事活动和高技术条件下的局部战争中都发挥了重要作用。
(一)军事通信
在当代高技术通信系统中,语音识别正逐步成为人机接口的关键技术,语音识别技术与语音合成技术的结合,使人们可以甩掉键盘,通过语音命令进行操作。从而,使智能语音接口把通信器材的“工具”属性拟人化、智能化了,变成了服务的“提供者”。比如,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息。现在,简单的人机对话已在通信服务中广泛应用。比如,我们拨通某一单位的电话总机,通常可以听到“请拨分机号”以及“人工服务请拨0”等语音提示,有的单位电话总机还可以寻问“请说您哪位”,在进行语音识别后自动接通拨叫的电话。在遍布美国大街小巷的公用电话亭里,凡有语音识别系统标识的,用户只需对着电话说“Connect Operator Please”,系统所具有的关键词检测技术就可以从句子中查到“Operator”,并直接把电话接通到接线员,系统的识别率超过99%
(二)军事保密
语音识别中的声纹识别技术,在军事保密中有着重要的应用价值。在军事计算机系统和核心要害部位的封闭管理中,应用声纹识别技术进行身份认证,具有很高的精确度,可进一步增加系统的安全性。比如,一些应用了声纹识别技术的新型计算机安全产品,可以在普通的USB加密钥匙基础上,增加声纹认证功能,并对计算机系统进行加密,保护计算机系统中的重要文件不被非法窃取、浏览、篡改、删除或破坏。它符合国家安全标准,对文件的加密、解密操作极其简便,提供多重安全保护,能可靠地防止非法用户进入、使用和窃取电脑系统。在一些军事要地的核心部位,应用语音识别技术实施门禁管理,可以有效辨识合法进出者。保密管理系统根据输入的自然语音信号,进行声纹身份认证,并自动开启或闭合门禁设施。
(三)指令确认
在军事行动中,通过电话发出命令是常用的信息传递方法。应用声纹识别技术,可以对发出命令者进行身份确认。避免出现敌方利用我方信道伪装我指挥员发出假命令,干扰我方军事行动的情况。由于在计算机信息处理中,录音的过程要经过模拟到数字的信号转换,放音的
生活中常见的数据库应用
过程还要经过数字到模拟的信号转换,因此,即使窃密者使用录音设备录下合法用户的声音进行声纹身份认证,经过从模拟到数字、再从数字到模拟的两次信号转换,声音频谱会有明显衰减和失真,这种失真很容易被认证程序分辩出来。所以,依靠录音登录也不能通过声纹认证。适当调节声纹认证严格程度的阈值,声纹认证的“错误接受率”和“错误拒绝率”可以有所下降。
(四)情报侦听
声纹识别技术对说话人身份确认的作用在情报侦听中具有相当重要的价值。目前该技术在军事情报工作中已经有所应用,据报道,曾迫降在我国海南机场的美军EP-3侦察机中就安装了声纹识别侦听模块。这一声纹识别系统功能强大,只要被侦察者通过无线电进行对话,该系统便能查明通话者的身份,尤其是高层领导者的身份。美军正是靠着这套功能强大的系统,掌握了其他国家大量绝密情报。五角大楼曾专门邀请语言学家,对被侦察国家的语言进行了全面深入的研究,开发出了一套独特的电子监听系统,只要美军截获到对方的通话,这套系统能立即识别出通话者的身份,从而判断出从中掌握到的情报的价值到底有多大。当截获到对方通话后,监听系统能自动删除杂音,通过与声音数据库相对照,准确识别出通话者身份。
据美国《华盛顿时报》披露,美国国家安全局一直将声音识别技术当作研究重点。比如,利比亚领导人卡扎菲就是美国情报机构重点识别的对象,现在,只要卡扎菲利用利比亚的通信网络进行通话,声音识别系统就会立即提醒工作人员:卡扎菲正在通话,请注意。事实上,早在70年代,美国国家安全局就已经掌握了移动电话声音识别术,如果前苏联领导人勃列日涅夫乘车行驶在莫斯科的某条大街上,他用移动电话跟其他人说话,国家安全局的声音识别系统就会立即确认出勃列日涅夫的身份,他的谈话内容就会立即被国家安全局工作人员记录下来。五角大楼一位情报官曾表示:“这套系统甚至能够分辨出是车内的勃列日涅夫还是其他人打的嗝儿。最近美国前情报官詹姆士.巴姆福德在其新著《秘密》一书中透露的一些内幕消息也证实了这套声音识别系统的存在。书中说,美国情报部门开始声音识别技术的研究已经有很多年了,最近几年,这套系统的功能不断完善,可以准确地识别出具体的声音。巴姆福德指出:“监听员甚至可以说出被监听者是否感冒了。”他还透露,国家安全局拥有大量被监听者的资料,有时候,监听员在监听时,旁边就放着这些被监听者的照片。