网站大量收购闲置独家精品文档,联系QQ:2885784924

腾讯游戏知几语音合成大模型推理实践.pptx

腾讯游戏知几语音合成大模型推理实践.pptx

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

DataFunSummit # 2024;背景介绍

语音合成模型结构分析语音合成模型推理思路未来展望;01;背景-产品展示;;02;;;03;推理加速方案-借鉴与选择;LLM中的kvcache:;Step2,withoutkvcache:;当attentionmask使得attention的计算满足以下条件时,就能使用kvcache

attentionoutput的第n行只与第n个q相关

第1~n个token的attention的计算包含第1~n-1个token的attention计算

每次attention的计算都用前面k和v

语音ar模型中attentionmask与attention计算满足kvcache的使用;对于prefill阶段来说是典型的计算受限场景,计算的瓶颈占据主导。而到了decode阶段,就是典型的访存受限场景,访存的瓶颈占据主导;相比kvcacheint8/fp8等量化方式,选择GQA压缩率更可控,可以在保证效果的同时,选择更少的headnum

将headnum从16减少到4,推理耗时降低20%;有了kvcache后,语音合成模型中AR模型也分为prefill阶段和decode阶段,合成10秒的音频需要AR模型生成500个token;在NLP中,采用类似BPE子词算法进行分词防止OOV问题

BPE首先将词分成单个字符,然后依次用另一个字符替换频率最高的一对字符,直到循环次数结束;10s音频需生成token数从500个token下降到约170个token;方案二:;推理使用方案二:;朴素批处理:;结合腾讯Trpc微服务框架,在语音合成大模型中实践

continuousbatching推理;语音合成大模型无压力的实时率从2.09优化到0.11,吞吐可达到1秒

2500token;将投机采样应用到语音合成大模型中

将NAR模型改造成流式输出结构

尝试更多非transformer的网络架构;DataFunSummit # 2024

文档评论(0)

加油,奥利给✊ + 关注
实名认证
内容提供者

无所谓。

1亿VIP精品文档

相关文档