23日,记者从内蒙古大学计算机学院获悉,刘锐研究员研究团队与日本大阪大学科学与产业研究所研究团队合作,在信号处理国际顶级期刊《音频、语音与语言处理》IEEE/ACM Journal of Audio,Speech and Language Processing上发表了“通过源滤波网络解耦非特定人情感进行语音转换”的最新研究成果。
据介绍,情感语音转换旨在将中性语音转换为情感语音,同时保留语言信息和说话人的身份。研究小组注意到,将情感特征与其他语音信息(如内容、说话者身份等)分离开来。)是实现高质量转化效果的关键。由于情感语音中声学特征的解耦比较复杂,中性语音的特征解耦处理不好。
研究团队对情感语音转换的声学特征解耦进行了研究,提出了基于“源-滤波器”模型的情感语音转换系统。具体而言,提出了一种基于"源-过滤器"模型的情感VC模型来解决情感语音转换的特征解耦问题,从而从音色和音调特征中准确过滤说话人的独立情感线索。SFEVC模型由多声道编码器、情感无关编码器、预训练的说话人相关编码器和相应的解码器组成。所有编码器模块均采用信息瓶颈自动编码器。
为了进一步提高各种情绪的转化质量,研究团队还提出了基于二维VA空间的训练策略。实验结果表明,SFEVC模型和VA训练策略的性能优于所有基线系统,在基于非并行数据的非特定人情感VC场景中取得了最佳性能。