[忘记密码] [免费注册]   服务电话:0771-3394012
您正在浏览 : 科技成果> 科技成果信息 » 其他 » 信息技术

一种基于多尺度视频特征融合的语音唇读方法及系统

成果基本信息
关键词: 语音唇读
成果类别: 应用技术 技术成熟度: 初期阶段
体现形式(基础理论类): 其他 体现形式(应用技术类): 新技术
成果登记号: 资源采集日期:
研究情况
单位名称: 武汉理工大学 技术水平: 未评价
评价证书号: 评价单位:
评价日期: 评价证书号:
转化情况
转让范围: 合作开发 推广形式: 合作开发
已转让企业数(个):
联系方式
联系人(平台): 孵化基地 联系人(平台)电话: 0771-3394012
*成果单位详细联系方式请登录会员;还不是会员,马上注册!
成果简介

 本发明提供了一种基于多尺度视频特征融合的语音唇读方法及系统,其中,基于多尺度视频特征融合的语音唇读方法,步骤如下:首先将输入视频的视频帧和语音分离,视频帧用不同大小的滑动窗口划分为多个尺度并构造出n个时间金字塔,再利用3D卷积提取各时间金字塔内各时间尺度的视频特征之后,将视频特征通过多尺度特征融合模块,得到一个固定维度的中间向量,然后再通过使用解码器将中间特征向量合成对应语音的Mel频谱图,最后将得到的Mel谱通过声码器合成语音。本发明主要应用于语音唇读,大大改善了语音合成的效果

成果名称: 一种基于多尺度视频特征融合的语音唇读方法及系统 关键词: 语音唇读
成果类别: 应用技术 一级分类名称:
二级分类名称: 三级分类名称:
研究起止时间: 成果体现形式(应用技术类): 新技术
成果属性: 原始性创新 成果体现形式(基础理论类): 其他
技术成熟度: 初期阶段 技术水平: 未评价
研究形式: 独立研究 学科分类1: 国家标准GB T13745-92《学科分类与代码》
单位名称: 武汉理工大学 学科分类2:
中图分类号1: 中国图书资料分类法(第四版) 所属高新技术类别:
中图分类号2: 课题来源: 国家科技计划
应用行业: 信息传输、计算机服务和软件业 课题立项名称:
国家科技计划子类别: 高技术研究发展计划(863计划) 课题立项编号:
经费实际投入额 (万元): 评价单位:
评价形式: 鉴定 应用状态: 稳定应用
评价日期: 转让范围: 合作开发
评价证书号: 推荐单位:
推广形式: 合作开发 成果登记号:
成果简介:

 本发明提供了一种基于多尺度视频特征融合的语音唇读方法及系统,其中,基于多尺度视频特征融合的语音唇读方法,步骤如下:首先将输入视频的视频帧和语音分离,视频帧用不同大小的滑动窗口划分为多个尺度并构造出n个时间金字塔,再利用3D卷积提取各时间金字塔内各时间尺度的视频特征之后,将视频特征通过多尺度特征融合模块,得到一个固定维度的中间向量,然后再通过使用解码器将中间特征向量合成对应语音的Mel频谱图,最后将得到的Mel谱通过声码器合成语音。本发明主要应用于语音唇读,大大改善了语音合成的效果

联系人: 陈绪高 成果登记日期:
联系人email: 单位代码:
邮政编码222: 联系人电话: 15296551147
单位传真: 单位通讯地址:
单位所在省市: 单位电话:
转让收入(万元): 单位属性: 大专院校
合作完成单位: 已转让企业数(个):
成果发布年份: 知识产权形式:
成果完成人: 资源采集日期:

 友情链接

国科网 广西科学技术厅 南宁市科学技术局 孵化圈 南宁高新区双创服务云平台 中国-东盟技术转移中心 佛山知识产权网 广西农业科学院 广西知识产权交易中心 广西机械工业研究院