语音识别技术及其军事应用

苏鸣 · 发表于 2005-3-13 07:44:26

作者：李苏鸣

语音是语言的物质外壳，语言必须借助声音才能表达。所谓语音识别，是指运用计算机系统对语音所承载的内容和说话人的发音特征等所进行的自动识别。比尔·盖茨认为：“以人类生物特征（指纹、语音、脸像等）进行身份验证的生物识别技术，在今后数年内将成为IT产业最为重要的技术革命。”近年来语音识别技术的迅速发展充分证明，这是一门很有实用价值并极具发展潜力的高科技，在军事领域也有其广泛的应用空间。
一、语音识别技术简介
语音识别技术基于对语音3个基本属性的分析。其一，物理属性，如音高、音长、音强和音质；其二，生理属性，如发音器官对语音的影响；其三，社会属性，如语音区别意义的作用等。一个完整的语音识别系统大致分为3个部分：（1）语音特征提取。从语音波形中提取出随时间变化的语音特征序列。（2）声学模型匹配。声学模型是语音识别系统中最为关键的一部分，其目的是提供一种有效的方法，计算语音特征矢量序列和发音模板之间的距离。在辨识时将语音特征同声学模型进行匹配与比较，达到最佳识别结果。（3）语言模型与语言处理：语言模型包括由辨识语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。当分类发生错误时，可根据语言学模型进行判断纠正，特别是一些同音字，必须通过上下文才能确定其意义。
语音识别技术主要有以下4个方面的功能：
（一）声纹识别。声纹识别是根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的一门技术。声纹识别的作用主要有两个方面：一是说话人辨认(Speaker Identification)，主要用于判断某一语音材料是由若干发音者中哪一人所说，属于“多选一”的识别；二是说话人确认(Speaker Verification)，主要用于确认某一语音材料是否由指定的某个人所说的，属于“一对一”识别。声纹识别赖以实现的基础是蕴含于语音信号中的说话人发音特征，这一技术强调说话人的个性，而不考虑以语音为物质外壳的话语意义。从本质上说，声纹识别技术属于“生物因子”认证范畴。声纹同指纹有着类似的属性。每个人的指纹都是唯一的，而声纹也是人的个性特征，很难找到两个声纹完全相同的人。
（二）内容识别。内容辨识是对语音材料所承载的实际意义的识别。内容识别有别于声纹识别，声纹识别主要着于眼语音的物理属性和生理属性，以辨认或确认说话人为目的；而内容识别则着眼于语音的社会属性，以识别语音信号所承载的话语内容为目的。话语内容识别比声纹识别要困难得多。说话人的语音通常会受到母语、方言、发音器官和发音状态等诸多因素的影响，正是因为说话人语音特征各异，才为声纹识别提供了可能性。但是，要将具有个性的声纹与具有共性的语法和语义模型相匹配，要通过词语切分、词性标注、结构分析和语境理解等程序，达到正确识别话语内容，则是一个相当复杂的处理过程。
（三）语种识别。语种识别是对语音材料所承载的语种特点的别识，是话语内容识别和机器翻译技术的重要基础。对计算机系统对多语种综合语音材料或不明语种单一语音材料进行识别时，要先把语音材料分拣到不同语种的识别器中进行识别，这时，就要通过语种识别技术发挥预分流作用。
（四）语音标准识别。语音标准识别是通过个人语音材料与语音标准模型的对照，对个人语音标准状况作出评判，并指出发音不标准的问题。这一技术可广泛应用于语言教学和语音标准测试。
对语音识别的研究可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统，这是第一个可以识别十个英文数字的语音识别系统。20世纪80年代末，语音识别研究出现重大进展，一些小词汇量识别系统具备了较高的识别率，并在实验室里突破了大词汇量、连续语音和非特定人这三大识别障碍，第一次将这三个特性集成于一个系统中。20世纪90年代前期，语音识别研究掀起了第一次浪潮始，IBM、苹果、AT＆T和NTT等著名的大公司都对语音识别系统的实用化研究投以巨资。语音识别的准确率指标在20世纪90年代中后期实验室研究中得到显著提高。
在我国，自从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。目前，我国语音识别技术的研究水平已经与国外基本同步，同时，在汉语语音识别技术上还具有一些特点和优势，达到了国际先进水平。我国语音识别技术具有代表性的研究单位是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94．8％（不定长数字串）和96．8％（定长数字串）。在有5％的拒识率情况下，系统识别率可以达到96．9％（不定长数字串）和98．7％（定长数字串），其性能已经接近实用水平。
二、语音识别技术的军事应用
语音识别技术在军事领域有着重要的应用价值。一些语音识别技术就是着眼于军事活动而研发，并在军事领域首先应用、首获成效的。目前，语音识别技术已在军事通信、军事保密、军事情报和指挥办公自动化等方面得以应用，在日常军事活动和高技术条件下的局部战争中都发挥了重要作用。
（一）军事通信
在当代高技术通信系统中，语音识别正逐步成为人机接口的关键技术，语音识别技术与语音合成技术的结合，使人们可以甩掉键盘，通过语音命令进行操作。从而，使智能语音接口把通信器材的“工具”属性拟人化、智能化了，变成了服务的“提供者”。比如，人们通过语音命令，可以方便地从远端的数据库系统中查询与提取有关信息。现在，简单的人机对话已在通信服务中广泛应用。比如，我们拨通某一单位的电话总机，通常可以听到“请拨分机号”以及“人工服务请拨0”等语音提示，有的单位电话总机还可以寻问“请说您找哪位”，在进行语音识别后自动接通拨叫的电话。在遍布美国大街小巷的公用电话亭里，凡有AT＆T语音识别系统标识的，用户只需对着电话说“Connect Operator Please”，系统所具有的关键词检测技术就可以从句子中查找到“Operator”，并直接把电话接通到接线员，系统的识别率超过99%。
（二）军事保密
语音识别中的声纹识别技术，在军事保密中有着重要的应用价值。在军事计算机系统和核心要害部位的封闭管理中，应用声纹识别技术进行身份认证，具有很高的精确度，可进一步增加系统的安全性。比如，一些应用了声纹识别技术的新型计算机安全产品，可以在普通的USB加密钥匙基础上，增加声纹认证功能，并对计算机系统进行加密，保护计算机系统中的重要文件不被非法窃取、浏览、篡改、删除或破坏。它符合国家安全标准，对文件的加密、解密操作极其简便，提供多重安全保护，能可靠地防止非法用户进入、使用和窃取电脑系统。在一些军事要地的核心部位，应用语音识别技术实施门禁管理，可以有效辨识合法进出者。保密管理系统根据输入的自然语音信号，进行声纹身份认证，并自动开启或闭合门禁设施。
（三）指令确认
在军事行动中，通过电话发出命令是常用的信息传递方法。应用声纹识别技术，可以对发出命令者进行身份确认。避免出现敌方利用我方信道伪装我指挥员发出假命令，干扰我方军事行动的情况。由于在计算机信息处理中，录音的过程要经过模拟到数字的信号转换，放音的过程还要经过数字到模拟的信号转换，因此，即使窃密者使用录音设备录下合法用户的声音进行声纹身份认证，经过从模拟到数字、再从数字到模拟的两次信号转换，声音频谱会有明显衰减和失真，这种失真很容易被认证程序分辩出来。所以，依靠录音登录也不能通过声纹认证。适当调节声纹认证严格程度的阈值，保证在对声音变化和信道差异有一定鲁棒性的前提下，声纹认证的“错误接受率”和“错误拒绝率”可以降至1%以下。
（四）情报侦听
声纹识别技术对说话人身份确认的作用在情报侦听中具有相当重要的价值。目前该技术在军事情报工作中已经有所应用，据报道，曾迫降在我国海南机场的美军EP-3侦察机中就安装了声纹识别侦听模块。这一声纹识别系统功能强大，只要被侦察者通过无线电进行对话，该系统便能查明通话者的身份，尤其是高层领导者的身份。美军正是靠着这套功能强大的系统，掌握了其他国家大量绝密情报。五角大楼曾专门邀请语言学家，对被侦察国家的语言进行了全面深入的研究，开发出了一套独特的电子监听系统，只要美军截获到对方的通话，这套系统能立即识别出通话者的身份，从而判断出从中掌握到的情报的价值到底有多大。当截获到对方通话后，监听系统能自动删除杂音，通过与声音数据库相对照，准确识别出通话者身份。据美国《华盛顿时报》披露，美国国家安全局一直将声音识别技术当做研究重点。比如，利比亚领导人卡扎菲就是美国情报机构重点识别的对象，现在，只要卡扎菲利用利比亚的通信网络进行通话，声音识别系统就会立即提醒工作人员：卡扎菲正在通话，请注意。事实上，早在70年代，美国国家安全局就已经掌握了移动电话声音识别技术，如果苏联领导人勃列日涅夫乘车行驶在莫斯科的某条大街上，他用移动电话跟其他人说话，国家安全局的声音识别系统就会立即确认出勃列日涅夫的身份，他的谈话内容就会立即被国家安全局工作人员记录下来。五角大楼一位情报官曾表示：“这套系统甚至能够分辨出是车内的勃列日涅夫还是其他人打的嗝儿。最近美国前情报官詹姆士.巴姆福德在其新著《秘密》一书中透露的一些内幕消息也证实了这套声音识别系统的存在。

宇人 · 发表于 2006-5-8 12:37:15

最近在上课的时候也有看到涉及到相关“波的识别”的内容，我也就语音识别这项技术在军事中的运用发表一下看法^^:whistle:

语音识别在近年来确实得到了长足的进步，特别是命令识别技术已经早早进入了民用领域。在国外的电子商场里随处可见采用语音识别的门锁、保险箱、计算机输入设备…，就连微软公司最新发售的电子游戏主机XBOX360也采用了微软最新的语音识别的技术来控制虚拟人物。:w00t:

而语音识别技术在军事中主要的运用还是在于对“声”的识别，这里不说对人的识别主要是因为以现在的技术还不足以精确区分声源为人的嘴还是某种录音设备。
因为当声音的采样率足够高时，就几乎能达到100%的音频还原，所以在军事保密方面单独采用声纹识别是不实际的，所以几乎所有涉及身份识别的大型机构（不止军方），都将多种个人识别技术同时运用以确保资料的准确及安全。（例如战时通讯：前线作战吵杂的炮火大过正在进行通讯的人声时，可以通过语音识别器中的电子滤波器过滤背景杂音，以获得更清晰的人声，准确快速的下达命令。不过此时一般都会加上讯号加密或设备识别等技术来确认只接收己方的讯号）:yes:

情报探听已经存在很长一段时间了，世界上几乎所有国家都有一个遍布全国的情报机构---电讯公司~:wink:，在澳洲，政府就直接在电视上公布他们正在对全国的固定电话、公用电话、手机、计算机网络等等进行全面的字眼追踪，以及有权进行反向追踪、录音、分析等等（虽然天天有人游行抗议:lol:）。主要目的是为了打击恐怖活动。

以上！敬礼~:happy:

[ 本贴由宇人于 2006-5-9 17:31 最后编辑 ]

苏鸣 · 发表于 2006-5-10 21:41:54

谢谢宇人的补充。欢迎常来这个栏目消化你的课程。

宇人 · 发表于 2006-5-15 17:44:05

班门弄斧,还望多多赐教...

好奇 · 发表于 2006-7-6 19:37:29

请教一下常见的简单的语音识别函数

苏鸣 · 发表于 2006-7-8 15:54:56

对不起，五楼所提问题非我专业所及，且本栏目也不宜讨论语言学以外的问题。在此向五楼推荐一本书，即王炳锡所著的《实用语音识别基础---21世纪高等院校优秀教材》（国防工业出版社2005年3月第一版）本书从语音识别的基本理论出发，以从理论到实用为主线，讲解了国际上最新、最前沿的语音识别领域的关键技术，从语料库建立、语音信号预处理，特征提取、特征变换、模型建立等方面详细介绍了语音识别系统建立的过程，并针对语音识别系统实用化的问题，给出了一些改善语音识别系统性能的关键技术，力求语音识别能走出实验室，向实用发展。全书共分四个部分，第一部分介绍语音识别的基本理论；第二部分介绍实用语音识别系统建立的过程；第三部分列举了语音识别系统工作化所需地关键技术；第四部分对语音识别的4个主要应用领域进行了详尽的，深入浅出的讲解，并根据最新的研究与实验结果提供了大量的实际参数、图表，与实际工作联系紧官，具有很强的可操作性与实用性。尤其是本书第3章“语音信号处理方法_时域处理”，论及了五楼所关注的语音识别函数问题，如“短时自相关函数和平均幅度差函数”、“短时平均能量和短时平均幅度”等。

		自动登录	找回密码
密码			注册

语音识别技术及其军事应用

相关帖子

高人！

若LZ不嫌弃就好...^^

推荐一本书

浏览过的版块