湘里妹子学术网

 找回密码
 注册
查看: 4200|回复: 0

Fujisaki模型在维吾尔语语音合成中的应用

[复制链接]
发表于 2007-3-21 17:56:58 | 显示全部楼层 |阅读模式
作者:聂晓丽   艾斯卡尔   
来源:http://www.uighurbiz.cn/HIS/YYWH/Index.html

摘要: 本文根据维吾尔语的特点,提出用Fujisaki模型实现维吾尔语的基音F0的合成。该模型由两类命令即短语命令和重音命令作为模型的输入,通过预测模型的命令去合成基频F0的轮廓。模型通过对轮廓基线值的调整,可实现情感语音的合成。

关键词:Fujisaki模型 维吾尔语 语音合成

         Application of Fujisaki’s model in speech systhesis of Uygur language

                            Nie xiao li         Askar

  (Institute of information science and Engineering of Xinjiang University  Urumqi  830046)

Abstract:In this paper,Fujisaki’ s model is used in the synthesis of Uygur language based on the characteristics of Uygur language.The model consists of two types of commands that phrase commands and accent commands as inputs, to synthesize fundamental frequency (F0) contours by prediction of model parameters and to synthesize emotional speech by adjusting baseline values.

Keywords:Fujisaki’s model ,Uygur language ,speech synthesis

引言:

随着人工智能、语音信号处理和计算机技术的发展,以语音方式进行的人机交互技术已经取得了较大进展。文语转换的语音合成技术的研究受到了广泛的关注,为了进一步提高语音合成的质量,达到更加流利和自然的程度,许多研究者对语音合成中情感的实现进行了大量的研究工作。基音频率是最常用的判定情感的语音特征,因此基于基频的情感语音合成具有广泛的意义。

在基于基频的情感语音合成方法中,对每帧的基频值进行控制的方法去合成情感语音,取得了一定的成果。但考虑到一帧一帧控制基频F0值有可能引起自然度的下降。这里,我们采用分层组合的方法来构造F0轮廓动态特征的数学模型。这个模型由两种类型的命令即短语命令和重音命令作为模型的输入,通过预测这个模型的命令而不是F0的值去合成基频F0的轮廓。即使这个预测有些偏差,也可以达到一个可接受的语音质量。

维吾尔语是新疆维吾尔自治区的官方语言,具有一定的影响力。维吾尔语的情感语音合成还是一个比较新的课,.结合维吾尔语自身的特点,我们采用上述模型去合成维吾尔语的情感语音。

一.维吾尔语的特点

(1). 维吾尔语的重音规则

在维吾尔语中,音节的重音规则相对比较简单,词中重音一般落在最后一个音节上,词后加各种词缀时,重音总是随之移动到最后一个音节.

(2). 维吾尔语语调变化规则

    维吾尔语的语调是由一系列音节调域组织起来的音高调节形式.维语中有四种句子结构:陈述句,疑问句,感叹句和祈使句.它的一般语气规则是:如果句子是陈述句或者是祈使句,句尾德音高就下降,最后一个词的音节清读;如果句子是疑问句或感叹句,句尾的最后一个词的音调就上升,句子中的最后一个音节重读.

(3). 维吾尔语的时长的变化规则

    通过对维吾尔语多音节词的统计分析结果我们知道:1.当音节和音节组成词时,各音节的时长都有一定的缩短(相对单音节而言),组合音节的数目越多,组合内各音节的缩短比例就越大;2.词内不同位置上的音节时长缩短的比例不同;3.多音节词的组合结构对其内部音节的时长分布具有决定作。.

根据以上分析结果,我们对于不同数目音节构成的词,设定不同的时长对比值.

两音节词:   第一音节 : 第二音节 = 0.9 : 0.85

三音节词:   第一 : 第二 : 第三 = 0.72 : 0.65 : 0.8

四音节词:   第一 : 第二 : 第三 : 第四 = 0.65 : 0.4 : 0.75 : 0.9

在句子层面上,则需要考虑词语在句子中的位置因素的影响。我们按照经验,让句尾的音节发音略短些,一般取0.95倍即可.根据以上的规则,我们在合成各个音节时,用时长初值乘上该相对系数,就得到音节的最后的时长。

二.Fujisaki模型

Fujisaki模型在对数标度上将基本F0( )同短语组件和重读组件叠加在一起。两个组件的控制机制的实现类似于临界阻尼的二阶系统,在短语组件中对应冲击函数,在重读组件中对应阶跃函数。这些函数由两组不同的参数生成: (1) 短语命令的定时和幅度以及短语控制机制的阻尼系数; (2)重读命令开始和结束时的时刻和幅度以及重音控制机制的阻尼系数.所有这些参数在一个设定的时间段中保持恒定: 短语组件的参数在一个韵律短语内部恒定,重音组件的参数在重读群中恒定,基本 在整个句子中恒定。该模型的表达式和理论图如下所示:

            (1)

其中 为脉冲响应,且

                                             (2)

为阶跃响应,且

                              (3)

                           图1. Fujisaki模型



Fb                    基频基线值

I                     短语命令的数目

J                     符号的数目

Api                   第i个短语命令的幅度

Aaj                   第j个重音命令的幅度

Toi                   第i个短语命令的时间

T1j                   第j个重音命令的开始时间

T2j                   第j个重音命令的结束时间

α                     短语控制部分的自然角频率

β                     重音控制部分的自然角频率

γ                     重音控制部分的最大值

准确地说, 短语控制部分的自然角频率α和重音控制部分的自然角频率β并不一定是常数,但是在实验中我们把他们确定为3.0 和 20.0 。

模型的短语组件代表了语句中曲线的全局下倾和缓慢变化。由于短语曲线达到最大值相当早,并随着句子的主要部分单调下降,短语组件非常适合描述下倾。因此,把短语组件加入基础所生成的曲线就成为语调曲线的基础,短语命令的幅度成为了语句中下倾的直接尺度。用一个负的短语命令模拟在陈述句和特殊疑问句中经常出现的末尾的显著下降。同样,用一个正的句子末尾短语命令来模拟其他类型的句子,如一般疑问句和反义疑问句。这样,通过短语曲线的形状、底层的命令和参数,模型的短语组件就与语言范畴的“句子模式”相关。全局(总的下倾)和局部(末尾抬升或下降)音征有助于区分句子模式。除了句首的强制短语命令外,在主要的合成边界处还增加了短语命令,如在主句和子句之间重设了下倾线,在最优估计准则需要的地方放弃了插入短语命令。

与重音音节关联的局部运动由重读组件表现,并叠加到全局曲线中。重读命令的幅度是确定重读曲线在频域上偏移以及音高峰值高度的乘积系数。

维吾尔语与日语、英语相似,它的重音命令成分只有正值,不会出现负值,这比其重音命令成分既有正值又有负值的汉语要容易实现。

三.语音数据库和F0模型参数的自动标记  

我们选择情感语音(其中包括生气.高兴.难过.惊奇)作为输入语音,这些语音样本缺乏自发性可能是一个问题。但由于被调查的情感嵌入语音材料中,在这里不予考虑。

为了保证录制语音的质量,我们的录音条件满足以下条件:首先,发音人身体状况良好,录音设备正常,录音现场隔音条件良好,背景噪声小,发音人的衣物不能发出摩擦音。

本文对分析实验用语句的选择主要考虑了以下两个方面。第一,所选择的语句必须不包含某一方面的情感倾向;第二,必须具有较高的情感自由度,对同一个语句能施加各种感情进行分析比较。其次,对于语句的长度、辅音以及助词成分的构成,男女性的性别差异等都作了考虑。根据上述原则,我们选用了60个语句作为情感分析用语音资料

在模型参数的提取过程中,轮廓的基线值对于每种情感类型值是不同的.我们用平均值减去四个方差: 147.7HZ 、182.5HZ 、210.3HZ 、182.5HZ分别对应于平静、生气和难过。这些值用于产生F0轮廓。

四.结论

    用FujiParaEditor 和praat软件可以实现上述过程,实验证明被预测的F0轮廓曲线与真实F0曲线有较好的匹配,可以达到一个比较满意的合成结果。

参考文献:

[1]  Keikichi Hirose, Kentaro Sato, Yasufumi Asano, Nobuaki Minematsu .Synthesis of F0 contours using generation process model prarameters predicted from unlabeled corpora: application to emotional speech synthesis .  Speech Communication 46 (2005)385-404

[2]  Hiromasa Ogawa,Yoshinori Sagisaka Automatic Extraction of  F0 Control Parameters Using Utterance Information . Speech Prosody 2004

[3]  Hiroya Fujisaki,Changfu Wang,Sumio Ohno,Wentao Gu Analysis and synthesis of fundamental frequency contours of Standard Chinese using the command-response model.     Speech Communication 47(2005)59-70

作者简介:
聂晓丽(1982-),女,在读研究生,研究方向为多媒体通信与信息处理。
艾斯卡尔(1972-),男,1972年出生,维吾尔族,博士,教授,硕士研究生导师,研究方向为多媒体通信和信息处理 技术,视频图像目标检测、识别与跟踪、多媒体信息内容分层与检索等。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-28 05:37 , Processed in 0.098008 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表