- 1、本文档共14页,其中可免费阅读13页,需付费10金币后方可阅读剩余内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本发明提供了一种基于多尺度视频特征融合的语音唇读方法及系统,其中,基于多尺度视频特征融合的语音唇读方法,步骤如下:首先将输入视频的视频帧和语音分离,视频帧用不同大小的滑动窗口划分为多个尺度并构造出n个时间金字塔,再利用3D卷积提取各时间金字塔内各时间尺度的视频特征之后,将视频特征通过多尺度特征融合模块,得到一个固定维度的中间向量,然后再通过使用解码器将中间特征向量合成对应语音的Mel频谱图,最后将得到的Mel谱通过声码器合成语音。本发明主要应用于语音唇读,大大改善了语音合成的效果。
(19)国家知识产权局
(12)发明专利
(10)授权公告号 CN 113450824 B
(45)授权公告日 2022.08.16
(21)申请号 202110716761.7 G06V 40/20 (2022.01)
您可能关注的文档
- 一种立体logo的设计和展示装置及其使用方法.pdf
- 一种湿化学法直接合成高矫顽力的非贵金属纳米线的方法.pdf
- 一种数据线生产用线缆切割理线机构.pdf
- 关于电机工作中电机的紧急停止的装置及方法.pdf
- 基于SVM的山区干线公路高危路段辨识方法.pdf
- 一种SDN环境下的DDoS攻击检测和防御方法.pdf
- 一种磷腈衍生物改性MC尼龙及其制备方法.pdf
- 一种改进调制双谱的轴承故障诊断方法、系统及介质.pdf
- 一种客车用防冲击吸能的防护栏及其制造方法.pdf
- 一种不停电作业快速切换系统及其方法.pdf
- 全国青少年(毒品预防教育)知识考试题库与答案 .pdf
- 2023年山东胶州市领军计划自主招生历史试题真题(含答案详解) .pdf
- 【人教版八年级生物】第六单元 第二章 认识生物的多样性 .pdf
- 冀人版-第三单元 电(提升卷)-四年级科学上册单元培优进阶练.docx
- 新郑市事业单位统考真题 .pdf
- 冀人版-第三单元动物的生长与繁殖(单元测试)四年级下册科学.docx
- CLCN4基因变异相关癫痫的临床表型及基因变异特点 .pdf
- 【《“双减”背景下小学中年级语文自主阅读策略探究》6500字】 .pdf
- 高一语文开学第一课+课件+2024-2025学年统编版高中语文必修上册 .pdf
- 密山市事业单位统考真题 .pdf
文档评论(0)