- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
多说话人分离技术及应用进展2024.3
纲要1.研究背景2.工业版本—模块化系统3.改进方案4.落地应用
1.研究背景多说话人分离(说话人日志):给定一个包含多人交替说话的语音,系统需要判断每个时间段是谁在说话。音频分割信息多说话人分离系统
1.研究背景应用场景:会议纪要,多说话人转录,智能客服,录音质检等...终端设备:录音笔智能手机个人电脑支持厂商:科大讯飞(智能办公本)、(AI纪要)、声云(语音转写)...
1.研究背景DIHARD(I,II,III)CHiME-6VoxSRC(20,21,22,23)AliMeetingRichTranscription(RT)MIXER62013CALLHOMEAMI竞赛/数据集M2MeT,AISHELL-4M2MeT2.0,CHiME-72000200220062009201820192020202120222023模块化架构架构端到端架构研究趋势:简单场景→复杂场景挑战:噪声干扰,人数未知,语音重叠等应用:离线=在线,单麦克风=多麦克风,适配新场景
1.研究背景—模块化系统聚类方法:AHC[1]、SC[2,3]、VB/VBx[4,5]、UIS-RNN[6]、DNC[7][1]K.C.GowdaandG.Krishna,“AgglomerativeClusteringUsingtheConceptofMutualNearestNeighbourhood,”PatternRecognition,vol.10,pp.105–112,1978.[2]U.vonLuxburg,“Atutorialonspectralclustering,”StatisticsandComputing,vol.17,pp.395–416,2007.[3]T.Park,KyuJ.Han,ManojKumar,andShrikanthS.Narayanan,“Auto-tuningSpectralClusteringforSpeakerDiarizationUsingNormalizedMaximumEigengap,”IEEESignalProcessingLetters,vol.27,pp.381–385,2020.[4]M.Diez,L.Burget,S.Wang,J.Rohdin,H.Cernocky,“BayesianHMMbasedx-vectorClusteringforSpeakerDiarization,”Interspeech,2019,pp.346-350.[5]M.Diez,L.Burget,F.Landini,J.Cernocky,AnalysisofSpeakerDiarizationbasedonBayesianHMMwithEigenvoicePriors,IEEE/ACMTransactionsonAudioSpeechandLanguageProcessing,vol.28,p355-368,2020.[6]A.Zhang,Q.Wang,Z.Zhu,J.Paisley,andC.Wang,“FullySupervisedSpeakerDiarization,”ICASSP,2019.[7]Q.J.Li,F.L.Kreyssig,C.Zhang,P.C.Woodland,“DiscriminativeNeuralClusteringforSpeakerDiarisation,”IEEESpokenLanguageTechnologyWorkshop(SLT2021),Jan2021,Shenzhen,China.
1.研究背景—端到端系统基于Bi-LSTM的端到端模型EEND[1]SA-EEND[2]基于Transformerencoder的端到端模型端到端系统EDA-EEND[3]可以预测人数的EEND模型…TS-VAD[4]目标说话人音频端点检测模型[1]Y.Fujita,N.Kanda,S.Horiguchi,K.Nagamatsu,andS.Watanabe,“End-to-endNeuralSpeakerDiarizationwithPermutation-freeObjectives,”inInterspeech,2019,pp.4300–4304.[2
您可能关注的文档
- 可编辑文档:抖音电商保健品行业市场前景及投资研究报告:颜值经济步履不停.pptx
- 可编辑文档:抖音电商液态奶行业市场前景及投资研究报告.pptx
- 可编辑文档:多元储能行业构网技术在新型电力系统中的应用分析报告:风电,光伏,储能.pptx
- 高级电工作业模拟考试题(有答案).pdf
- 2019年二级造价工程师《建设工程计量与计价实务(土木建筑工程)》真题(含解析).pdf
- 2017年一建《建筑工程管理与实务》真题(含答案).pdf
- 2019年注安《化工安全》真题(含解析).pdf
- 2017年消防师《消防安全案例分析》考试真题(含解析).pdf
- 2020年一造《建设工程技术与计量(土建)》真题(含答案).pdf
- 2022年安全员C证江西省考试试题(有答案).pdf
文档评论(0)