基于EPG的普通话语音研究

湘里妹子 · 发表于 2005-6-26 21:21:06

作者：郑玉玲
来源：中国社会科学院院报
2004-6-18 16:45:02

   语音信号承载着发声、调音和唇的辐射的信息，而人们从语图中看到的语音信号是有音信号。语音由元音和辅音组成。声学研究方法通过语图可以对元音进行声学分析，元音响度大，又是乐音，有很好的声学表现。而辅音则不同，辅音由于受口腔的阻碍作用，在语图上的反映是时程短、能量弱，人们很难从语音信号分析中了解辅音的真实面目，所以辅音研究一直是语音研究中的薄弱环节。然而辅音对语音的清晰度有决定性作用。

   生理研究是研究辅音的重要途径，一直以来，人们试图用生理的方法了解辅音，了解语音的发音过程，人们用现代化的手段纪录口腔中的发音动作，揭示辅音的发音方法和发音部位，以及在语流中的协同发音现象。近十年来，基于动态腭位的语音研究有了较大的进展。动态腭位简称EPG。它是一种材质极薄（小于0.5毫米）的电子假腭，材质内镶嵌有96个电极，可以紧紧地贴合在口腔上腭的牙齿和硬腭部位。在说话过程中，电子假腭以96点阵的方式，实时纪录舌与上腭的接触位置和面积的大小，以图形方式显示在语音声学分析软件的界面上。

   应用动态腭位的研究方法在我国尚属首次。对汉语普通话的研究是我国首次开展基于EPG的语音研究。我们已经建成了《汉语普通话语音动态腭位数据库》，并开展了一系列语音专题研究并取得了初步研究成果。目前，正在进行普通话协同发音研究。

   一、普通话语音动态腭位数据库
   汉语普通话有21个辅音和10个单元音音位。21个辅音中4个辅音b、p、m、f为双唇音或唇齿音，其余17个辅音均由舌腭接触造成阻碍或阻塞调音，因此，实时的动态腭位研究方法非常适合研究辅音。《普通话语音动态腭位数据库》由两部分组成：一是语音库，二是腭位数据库。
   项目之初，首先建立了男女两位普通话（播音标准）发音人的动态腭位数据库和语音库，发音词表共有2786个音节，数据格式为.NSP。该格式的语音数据不同于普通的.WAV数据，它除了包括12.5KHz采样率、16比特量化阶的语音信号，还包括200HZ采样率、96点阵的动态腭位图形。在此基础上，我们进行了语音标注。建成的语音库为男女二人共5572个音节，846个声音文件，占用80兆空间。

   语音库的发音词表基本上概括了普通话语音系统全部可能出现的音节及多种语境。有单音节词、双音节词、语句、诗词、问答、小故事等。例如，在1076个双音节词中,绝大部分是根据普通话三音素模型而设计的。它们分别有两种形式 C1V1 C2V2和C1V1N1 C2V2,其中V1和V2分别是/i、a、u/三个主要元音；C2是/b、p、m、f,d、t、n、l,g、k、h,j、q、x,z、c、s,zh、ch、sh、r/;VN为鼻音韵母，其中N为/n/和/ng/。这个发音词表在同类研究中是规模比较大的。
   腭位参数库是从语音文件中提取的96点阵动态腭位的数据。腭位参数库是语音量化研究的数据基础。

   二、普通话语音专题研究

   这些专题研究主要涉及两个方面，一个是对辅音的静态研究，二是对辅音的动态研究，也就是协同发音研究。
   对辅音的静态研究，传统语音学对辅音的发音部位和发音方法早已有明确的论述。但是，结论的产生主要依据的是人们的感知。通过我们对普通话有舌腭接触的17个辅音的研究发现，由于辅音不是孤立存在的，在与元音共同组成音节的过程中，辅音的发音部位已经不同程度的发生了改变，在辅音的腭位图上da/di/du的舌腭接触位置有别，接触的面积也不同。这种区别在辅音的成阻之初就已经反映出来。这说明辅音的特点是携带后面的元音，辅音的发音动作是，既有本身发音部位的发音约束，又有受后面元音影响而产生的一定的自由度，发音约束制约着音素的性质，而自由度则给了协同发音、省力原则的空间。对辅音的发音约束和自由度的量化研究是我们对辅音发音方法和发音部位更为准确描述的基础。

   在我们绘制出的辅音发音部位图上，以舌腭接触位置的前后和舌的两侧趋中性的二维指标，体现了辅音的发音位置。辅音发音位置的误差图则反映发音约束与自由度。

   在静态研究中，普通话辅音除双唇音和唇齿音以外，其余辅音在上腭的发音部位从前向后依次为：d，t，n，位于齿与前齿龈区；z，c，s，l，位于后齿龈区；然后是j，q，x，位于后齿龈区和前硬腭区之间；再然后是zh，ch，sh，r，位于前硬腭区；最后是g，k，h。g、k、h是软腭音，电子假腭只能部分地反映出成阻位置。

其他专题更多的涉及了辅音的动态研究，通过专题研究使我们看到了一些重要语音现象的生理过程以及这些生理过程与声学特征的对应关系。研究的初步结论有：

第一，辅音能量弱，但并非时长短。辅音有与元音差不多的固有的生理时长，生理时长指辅音的成阻、持阻、除阻的发音生理过程。这一过程在腭位图上有清晰的反映，在语图上仅能看到辅音破裂的瞬间和擦音的送气乱纹，而其全程的生理过程则涉及到了辅音前后音素的过渡和空白段。

   第二，音素之间的时域上、频域上的非线性叠加。普通话声母与韵母之间的相互影响，被称为“音征互载”，即在声母中载带有韵母的信息，而在韵母中载带有声母的信息。更有甚者，声母或者韵母的信息主要是由对方载带的。这种相互载带主要是从元音共振峰过渡观察的。动态腭位表明，这种音征互载的关系是：如果在C1V1 C2V2结构中，V1的结束时刻正是C2完成前成阻的时刻。从腭位图上可以看到这个过程，这一时段表现为V1的共振峰后过渡时段。同时，又由于辅音对后面元音的载带性，使得C2的成阻过程（V1的共振峰后过渡）的频谱特性同时受到V2的影响，因此这种音素的非线性叠加涉及三个音素。又例如，在C1V1N1 C2V2结构中对鼻韵尾的研究，C2的成阻、持阻时段都在鼻辅音N的时程中，而两个音素生理动作的同时进行并不影响鼻韵尾辅音的性质。这种时域上两个音素的大部分生理时长都叠加在一起的现象，使我们转而注意到音素叠加的规律。音素叠加的时长与两个音素的发音器官和发音方法有关，也就是揭示过渡音征的过程。如果两个音素的发音部位涉及不同发音器官（口、鼻）的动作，两者在空间上的重叠程度低，发音时可以在时域上充分叠加。

第三，鼻韵尾/ n/的发音方法不同于做声母的鼻音，/ n/鼻韵尾的发音是软腭下降，打开鼻咽通道，口腔内舌位的摆放受后续辅音的影响。/ ng/是舌根收紧的鼻尾音，舌尖的摆放也同样受后续辅音的影响。例如，单音节词的鼻尾/ n/，可以是典型的舌尖齿龈闭塞，但可以不闭塞的，而在听感上不会受到影响，语图也会有稳定的低频鼻音共振峰。因此，我们说软腭下降是鼻尾/ n/的关键性动作，舌位的成阻位置变化并不影响鼻尾/ n/的性质。鼻韵尾/ n/和/ ng/的本质区别在于软腭下降时舌根的动作姿态不同。

第四，语流中音素之间的影响是后音素影响前音素，或者说后音素的影响远远大于前音素。

在语音环境中，由于音段间的相互影响而产生协同发音效应。两音连读时相互适应的结果，使它在两个不同语音间服从生理惯性并照顾到表达信息的一种对立的统一。从初步的研究结果看，辅音的非孤立存在的性质，更加剧了音段间的协同发音现象的复杂性，可以说协同发音现象不仅仅是两音连读之间的相互作用，而是三个音之间的相互作用。实践证明，协同发音的研究离不开发音生理的研究，因为语音输出是声腔中各部位相互动作和极其精密配合的综合效果，单凭声学分析不可能完整而精确地研究并揭示协同发音深层次的成因。充分研究协同发音现象，对普通话的音节内部、音节之间的协同发音和音节在词、句中的位置效应，乃至韵律对协同发音的影响等进行深入的研究，寻找生理层次的成因，不仅可以服务于言语产生理论和言语感知的研究；也为语音合成、语音识别等提供协同发音方面切实有效的理论依据。

文章出处：中国社会科学院院报
本网发布时间：2004-6-18 16:45:02

胡吉成 · 发表于 2005-6-28 11:24:42

我感觉我成了刘姥姥啦！
这篇文章太专业啦！
为什么后音素会影响前音素呢？按说语言的线条性特点应该是前面的音素影响后面呢。
虽然我也知道在现实语言中后面影响前面，但是原因好像讲不通呢。

qhunter · 发表于 2005-11-15 20:25:20

大约是因为“预测”机制存在的原因。
人会预测自己的行为，并且编制一串动作序列。从这个角度讲，人为了顺利的发出尾音，会提前准备肌肉运动。所以也许会影响到之前的发音...

ritter · 发表于 2006-2-7 12:21:12

在发前一个音素的时候要为后一个音素做准备，东方语言大抵是这样。西方语言却以前一个音素影响后一个音素的情况居多。如比较汉语的“岁”和英语的“sway”，前者的/s/受后面音素的影响变成圆唇的，而后者的/s/就不存在这种情况。

皮扎诺 · 发表于 2006-2-11 20:40:35

后音素影响前音素可以通过耳朵来殷实地感受到的，起码在南方入声保留区的人们最能理解这一点。这就是，在入声发音的闭塞动作尚未完成之前，入声音的形象已经清晰地被辨认出来，特别是在读延长读音的入声音时这一点是太明显不过了。

下面的附件a_at.wav是“a”这个元音的舒声(a)和t入声(at)的两种读音，从这两个读音中，我们可以清楚地感觉到，“at(闽南话‘抑’字)”的读音和“a(闽南话‘鸭’字)”的读音是完全不同的（音高完全相同），而且是从这个音节一开始就完全不同。这说明了在“at”这个音节中，后音素“t”对前音素“a”的声音形象产生了决定性的影响，而且，所有的入声音节都如此。根据沈炯教授的解释，就是前音素“a”具备了后音素“t”的音征。

附件：http://www.vvlogger.com/www/scripts/portal/index.php?pgid=12573

		自动登录	找回密码
密码			注册

基于EPG的普通话语音研究

相关帖子

啊哟哟，呀呀呀！

后音素影响前音素可以通过耳朵来殷实地感受到的

浏览过的版块