| 成果基本信息 | ||||||
| 关键词: | 语音合成 | |||||
| 成果类别: | 应用技术 | 技术成熟度: | 初期阶段 | |||
| 体现形式(基础理论类): | 其他 | 体现形式(应用技术类): | 新技术 | |||
| 成果登记号: | 资源采集日期: | |||||
| 研究情况 | |||||
| 单位名称: | 武汉理工大学 | 技术水平: | 未评价 | ||
| 评价证书号: | 评价单位: | ||||
| 评价日期: | 评价证书号: | ||||
| 转化情况 | |||||
| 转让范围: | 合作开发 | 推广形式: | 合作开发 | ||
| 已转让企业数(个): | |||||
| 联系方式 | |||||
| 联系人(平台): | 孵化基地 | 联系人(平台)电话: | 0771-3394012 | ||
| *成果单位详细联系方式请登录会员;还不是会员,马上注册! | |||||
| 成果简介 | |||||
本发明提供了一种基于声学特征与文本情感特征融合的端到端语音合成方法及系统,构建了端到端语音合成模型,可以根据音素序列的嵌入向量获得文本的韵律隐特征,进行音素与Mel频谱对齐,通过声学编码器从中分别获取音素级和句子级别的声学特征,并在声学特征中加入隐特征,与此同时从文本中获取文本情感特征;再次将声学特征与文本情感特征进行特征融合,输入到FastSpeech2的方差适配器进行特征增强与扩充;最后将方差适配器的输出输入到FastSpeech2的Mel解码器实现并行解码,得到合成语音的频谱图;使用声码器将频谱图特征映射为声音波形,得到合成的语音。本发明在保证效率的同时可以提高语音合成的自然度 |