| 成果基本信息 | ||||||
| 关键词: | 语音唇读 | |||||
| 成果类别: | 应用技术 | 技术成熟度: | 初期阶段 | |||
| 体现形式(基础理论类): | 其他 | 体现形式(应用技术类): | 新技术 | |||
| 成果登记号: | 资源采集日期: | |||||
| 研究情况 | |||||
| 单位名称: | 武汉理工大学 | 技术水平: | 未评价 | ||
| 评价证书号: | 评价单位: | ||||
| 评价日期: | 评价证书号: | ||||
| 转化情况 | |||||
| 转让范围: | 合作开发 | 推广形式: | 合作开发 | ||
| 已转让企业数(个): | |||||
| 联系方式 | |||||
| 联系人(平台): | 孵化基地 | 联系人(平台)电话: | 0771-3394012 | ||
| *成果单位详细联系方式请登录会员;还不是会员,马上注册! | |||||
| 成果简介 | |||||
本发明提供了一种基于多尺度视频特征融合的语音唇读方法及系统,其中,基于多尺度视频特征融合的语音唇读方法,步骤如下:首先将输入视频的视频帧和语音分离,视频帧用不同大小的滑动窗口划分为多个尺度并构造出n个时间金字塔,再利用3D卷积提取各时间金字塔内各时间尺度的视频特征之后,将视频特征通过多尺度特征融合模块,得到一个固定维度的中间向量,然后再通过使用解码器将中间特征向量合成对应语音的Mel频谱图,最后将得到的Mel谱通过声码器合成语音。本发明主要应用于语音唇读,大大改善了语音合成的效果 |