一种基于多尺度视频特征融合的语音唇读方法及系统

成果基本信息
关键词：	语音唇读
成果类别：	应用技术	技术成熟度：	初期阶段
体现形式（基础理论类）：	其他	体现形式（应用技术类）：	新技术
成果登记号：		资源采集日期：

研究情况
单位名称：	武汉理工大学	技术水平：	未评价
评价证书号：		评价单位：
评价日期：		评价证书号：

转化情况
转让范围：	合作开发	推广形式：	合作开发
已转让企业数（个）：

联系方式
联系人（平台）：	孵化基地	联系人（平台）电话：	0771-3394012
*成果单位详细联系方式请登录会员；还不是会员，马上注册!

成果简介
本发明提供了一种基于多尺度视频特征融合的语音唇读方法及系统，其中，基于多尺度视频特征融合的语音唇读方法，步骤如下：首先将输入视频的视频帧和语音分离，视频帧用不同大小的滑动窗口划分为多个尺度并构造出n个时间金字塔，再利用3D卷积提取各时间金字塔内各时间尺度的视频特征之后，将视频特征通过多尺度特征融合模块，得到一个固定维度的中间向量，然后再通过使用解码器将中间特征向量合成对应语音的Mel频谱图，最后将得到的Mel谱通过声码器合成语音。本发明主要应用于语音唇读，大大改善了语音合成的效果

成果名称：	一种基于多尺度视频特征融合的语音唇读方法及系统	关键词：	语音唇读
成果类别：	应用技术	一级分类名称：
二级分类名称：		三级分类名称：
研究起止时间：		成果体现形式（应用技术类）：	新技术
成果属性：	原始性创新	成果体现形式（基础理论类）：	其他
技术成熟度：	初期阶段	技术水平：	未评价
研究形式：	独立研究	学科分类1：	国家标准GB T13745-92《学科分类与代码》
单位名称：	武汉理工大学	学科分类2：
中图分类号1：	中国图书资料分类法（第四版）	所属高新技术类别：
中图分类号2：		课题来源：	国家科技计划
应用行业：	信息传输、计算机服务和软件业	课题立项名称：
国家科技计划子类别：	高技术研究发展计划（863计划）	课题立项编号：
经费实际投入额（万元）：		评价单位：
评价形式：	鉴定	应用状态：	稳定应用
评价日期：		转让范围：	合作开发
评价证书号：		推荐单位：
推广形式：	合作开发	成果登记号：
成果简介：	本发明提供了一种基于多尺度视频特征融合的语音唇读方法及系统，其中，基于多尺度视频特征融合的语音唇读方法，步骤如下：首先将输入视频的视频帧和语音分离，视频帧用不同大小的滑动窗口划分为多个尺度并构造出n个时间金字塔，再利用3D卷积提取各时间金字塔内各时间尺度的视频特征之后，将视频特征通过多尺度特征融合模块，得到一个固定维度的中间向量，然后再通过使用解码器将中间特征向量合成对应语音的Mel频谱图，最后将得到的Mel谱通过声码器合成语音。本发明主要应用于语音唇读，大大改善了语音合成的效果
联系人：	陈绪高	成果登记日期：
联系人email：		单位代码：
邮政编码222：		联系人电话：	15296551147
单位传真：		单位通讯地址：
单位所在省市：		单位电话：
转让收入（万元）：		单位属性：	大专院校
合作完成单位：		已转让企业数（个）：
成果发布年份：		知识产权形式：
成果完成人：		资源采集日期：

一种基于多尺度视频特征融合的语音唇读方法及系统

最新科技成果资讯

热门资讯排行

最新科技图文资讯

友情链接