当前位置: /首页 /最新研究成果 /正文
人工喉研究意义
语音是人类最基本、最有效和最重要的交流手段。语音不但可以传递语言信息,而且可以携带说话人的个性与情绪信息。目前世界上有数百万喉癌和严重的喉病患者,其中很大一部分人因喉切除等原因失去了言语发声功能。我国人口数量巨大,2015年的数据显示我国每年新增喉癌患者达30万。喉切除在给患者带来伤病痛苦的同时,也造成了言语功能的丧失,生活质量明显降低。重建患者的发声功能,恢复言语交流能力成为工程与医学研究人员共同追求的目标。
现阶段主要有三种发声功能重建方法,分别为食管发声、气管食管发声和电子人工喉发声。其中电子人工喉使用较为广泛,它具有使用简单、便于维护、不受瘘口限制等诸多优点。无论如何,现有电子喉语音存在着声调单调、声音机械、噪声大等诸多问题,严重影响语音的自然度和可懂度,与正常语音质量还存在明显差距。探索有效的电子喉语音增强方法对于提高使用者的语音可懂度及其生活质量具有重要意义。
图1. 全喉切除患者术后使用电子人工喉发声
研究现状
从原理上讲,造成电子喉语音质量低劣的原因主要来自于人工喉自身缺陷,包括基频缺失、无辅音、辐射噪声等等。为了弥补这些缺陷,包括日本东京大学、美国哈佛医学院、北航生物医学工程高精尖创新中心及生物与医学工程学院课题组在内的研究者提出了许多电子喉语音增强方法。总体来说,我们把这些方法可以归结为两类。一是基于生理与行为信号的电子喉参数调控方法,二是基于噪声消除和语音转换的电子喉语音增强方法。
(1) 基于生理与行为信号的电子喉参数调控方法
这类方法的核心思想在于:如何通过与发声相关的生理信息或行为方式,按照言语发声规律实时调控电子人工喉自身参数(如起止时间、基频变化等)。主要有三种调控方式:颈部肌电控制、瘘口气压控制和行为动作控制。①颈部肌电控制方式以哈佛大学的Goldstein等人的研究最具代表性,通过采集喉切除后的颈部表面肌电信号,建立起其与发声起止时间、基频之间的相关关系,把肌电作为电子喉语音的起止控制和部分基频控制信号。日本Katsutoshi Ooe和北航生物与医学工程学院牛海军课题组的工作都发现胸骨舌骨肌肌电能够产生更好的控制效果。但总体来说,肌电信号的可靠性很低且与发声参数之间的关系不稳定,所以没有真正获得实际应用。②瘘口气压控制方式主要由日本学者提出,Norihiro UEMI首先研究了使用瘘口气压调控发声基频参数的可行性,Stepp等人研究了电子喉使用者发声时呼吸随时间变化情况,探索了呼吸信号作为控制源的可能性。由于实际发声过程中呼吸气压与基频之间的关系不固定,所以经过训练后的控制成功率极低,在电子喉调控中也较少使用。③行为动作控制方式多采用肢体动作进行电子喉基频控制。相比肌电和瘘口气压,肢体动作获取更便利、方式更灵活。例如采用指压控制基频、采用臂部动作控制发声起止与基频等等。典型应用为Evada电子喉,在发疑问句和祈使句时频率和强度的变化都更加显著,就韵律特征和感知效果来看,动作控制方式在日语发声中效果较好。北航生物医学工程高精尖创新中心及生物与医学工程学院牛海军课题组基于对手指运动形式和灵活性的分析,分别提出了滚动与滑动电子喉基频调控方式,并基于此方式研制了相关系统,取得了较好的控制结果,基于此原理研制的电子喉也通过了国家医疗器械检定。
图2 电子人工喉及训练系统
总的来说,由于人类语音产生神经调控机制的复杂性,以及言语产生过程中参与发声的器官协同运动的复杂性,就目前来讲,基于生理信息的直接电子喉参数调控方法很难有更大程度的提升,因此研究者提出了下列新的研究思路。
(2) 基于噪声消除和声音转换的电子喉语音增强方法
一些研究者从信号处理角度出发,试图通过对已发出的电子喉语音进行再处理的方法提高语音质量,以使其更接近自然语音。概括来讲,这方面研究工作主要分为两类,一类是电子喉语音噪声消除,一类是电子喉语音转换。
电子喉语音去噪
早期的研究者大都聚焦于电子喉语音的辐射噪声消除,背景辐射噪声的确对电子喉语音质量造成了较大影响,特别是无声与发声之间的噪声,模糊的元音间隙造成了言语自然度和可懂度的降低,这一点在许多文献中已经详述。研究者们主要采用了谱减、自适应去噪等算法来消除电子喉语音的背景辐射噪声,从主观评判来看,去噪后电子喉语音的质量有一定程度的提升,但作用非常有限,语音的自然度和可懂度并没有实质性的改变。
电子喉语音转换
语音转换是近年来语音信号处理领域越来越受关注的重要分支,其核心问题是建立源语音和目标语音特征参数之间的映射规则,也就是把源语音特征参数映射到目标语音特征参数空间,利用转换规则实现特征转换并合成为目标语音。常用的建立映射关系的方法包含VQ、GMM、HMM、ANN等。其中由Sylianou等人基于GMM模型训练转换函数取得了较大成功,是目前语音转换的主流方法。
利用语音转换方法提升人工喉语音质量(包括食管语音、气食管语音和电子喉语音)的思路也被提出。其中Nakamura的研究最具代表性,基本思路是把电子喉语音作为源语音,把正常语音当成目标语音,通过算法把电子喉语音转换为目标语音。其采用了语音转换的主流建模方法,即基于GMM模型,结合最大似然估计构建电子喉语音转换框架。该算法框架首先提取了电子喉语音信号的谱参数特征,同时考虑到电子喉语音基频缺失的缺陷,引入了三个GMM模型(传统语音转换为两个),分别针对语音谱特征、语音基频特征和非周期分量特征进行训练和转换,转换后的语音自然度有了一定程度提高,但是由于复杂的转换运算和算法的缺陷造成了可懂度的损失。包含北航生物与医学工程学院牛海军课题组在内的研究人员又继续对算法进行了多种改进,例如采用去噪和转换混合的方法、通过消除噪声增强语音谱参数特征、结合统计方法预测激励参数、通过更改预测激励参数的过程提高预测精确度、降低由于静音段/发音段预测错误所带来的不利影响等等。但从总体研究结果来看,采用语音转换方法使得电子喉语音的自然度有了较大程度的提升,但语音可懂度的提升并不明显。
图3.人工喉语音转换框架结构
电子人工喉语音增强研究的未来进展
从国内外现状可以看出,语音转换方法具有显著改善电子喉语音自然度和可懂度的前途和潜力,但是目前还存在一些问题需要解决。
第一个是基频缺失问题。影响电子喉语可懂度的最主要原因还是基频缺失,即使泄漏噪声完全被消除,由于基频缺失所造成的机械化语音的自然度和可懂度仍旧不会有太大提升,所以语音频率的变化才是可懂度提升的根本。研究显示缺乏基频变化的语音要比自然语音的可懂度低的多,添加了基频变化的电子喉语音比基频单一电子喉语音可懂度要高出14%,并明显有助于电子人工喉语音的理解。特别对于汉语这种声调语言来说结果尤其明显。第二个是辅音激励缺失。对于喉癌患者来说,全喉切除后呼吸改道,使用电子喉发音时口腔内无法产生气流激励,所以不能发出辅音。汉语普通话除了单个元音对应的字之外,大部分字的发音都由辅音与元音共同构成,所以辅音缺失会造成语音缺陷。
为了解决上述问题,特别是声调缺失问题,进一步提高电子喉语音质量,包括课题组在内的多个国内外研究团队从喉切除患者上声道变化、电子喉语音基频缺失和辅音激励源缺失等几个主要方面入手,围绕声调语音的电子喉发音,基于深度学习技术,研究喉切除患者声道谱特征提取与优化方法、电子喉语音缺失基频预测方法、辅音激励源补偿方法,在此基础上建立适用于电子喉语音的语音转换框架,提高转换后语音的自然度和可懂度。
无论如何,从目前的研究结果来看,完全依赖于生理信号控制的电子人工喉基频“预处理”方法和完全依赖语音转换方法的电子人工喉基频“后处理”方法都无法完全解决基频调控的全部问题。因此将“预处理”和“后处理”相结合,利用生理信号调节电子人工喉产生变化的基频,再利用语音转换的方法对基频变化的电子人工喉语音进行转换,可能会对电子人工喉语音的基频有进一步的改善,这也是未来值得深入探讨的、非常重要的一个言语康复工程研究方向。
文章作者:牛海军