- 1、本文档共39页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
人工智能技术应用核心课程系列教材;;随着深度学习算法的发展,智能语音处理技术正在经历革命性的变化,算法、算力、数据成为驱动智能语音处理技术快速发展的三大因素。其中,语音数据资源是智能语音处理技术的基石,只有拥有大规模精准、高质量的语音数据集,智能语音处理技术才会有更好的发展。另一方面,虽然当下的智能语音处理技术在一些业务中有非常好的表现,但依然存在效果不太理想的场景,比如重口音、方言、嘈杂环境、多人同时说话、远场语音等,这不仅需要进一步提升深度学习算法的有效性,还需要设计、获取和生产更多丰富场景下的语音数据资源。在当今互联网时代下,高质量的语音数据集对于语音产业的蓬勃发展起到关键作用,具有重大实用意义。;语音数据标注相关背景
近些年来,在人工智能发展的浪潮下,智能语音处理领域获得了突破性进展,尤其是在深度学习的不断渗入下,以端到端技术为代表的各种新算法不断出现并应用在实际业务系统中,极大地提升了智能语音处理技术的效果。
机器人电话客服系统、智能手机助手、智能音箱等大规模应用在限定场景下已经有比较好的表现。未来的落地场景会越来越多。
目前,智能语音处理技术中热门研究方向如下图所示。;5.1.2 语音信号基础知识
(1)认知语音信号:从物理学角度分析,声音即是以声波形式传播的机械振动,因此,声音的特征取决于声波的属性,日常应用中常见的语音声音特征主要有:
①音色/音质:指能够区分两种不同声音的基本特征,比如人说话的声音和小
提琴的声音。在语音信号处理技术中,人声识别研究常将音色作为重要研究对象;
②音调:指声音的高低,由声波的频率决定。比如在一般情况下,男声听起来比较低沉,而女声听起来会比较尖锐;
③音强:指声音的强弱,由声波的振动幅度决定,可简单理解为语音信号波形图中的信号幅度;
④音长:指声音的长短,由发音时间的长短决定。;5.1.2 语音信号基础知识
(2)数字化语音信号:数字化(也可称作离散化)语音信号的功能是将人们发出的语音连续模拟信号转化为计算机方便处理的离散数字信号??该过程涉及以下几个概念,它们都是保存、传输语音数据的关键选项:
①采样率:指在连续的语音模拟信号上,每秒钟采样的次数,单位为Hz;
②量化位数:将采样得到的语音信号的幅度值转化为一定范围内的数值,该过程即为量化。量化位数指计算机存储转化后数值的二进制比特数。
③声音通道数:也称声道数,是指输入或输出信号的通道数,也就是声音录
制时的音源数量或回放时相应的扬声器的数量。常见的声道数有单声道、双声道、立体声等。
④语音编码格式:指按一定格式压缩采样和量化后的数值,从而降低音频的数据量,便于音频数据的存储和传输。常用的编码格式有PCM(WAV)、MP3等。;;标注任务分类
语音数据标注任务具有不同的形式,大致可从以下不同纬度考察它们的特点:
按照智能应用场景,可划分为智能家居、智能会议、智能客服、智能车载等;
按照语音信号处理研究方向,可划分为语音识别、语音合成、说话人识别、情感识别、语音分离等;
按照音源与拾音器之间的距离,可划分为近场语音、远场语音;
按照语音时长,可划分为短语音、长语音;
按照难度等级,可划分为简单、中等、高难度;
按照口音,可划分为普通话、方言、带地方口音的普通话等。
除此之外,小语种、外语相关的语音数据标注任务则需要有相应专业背景的专业人士来完成,这也加大了标注任务的难度。;5.2.2 常见数据异常
在语音数据标注的过程中,需对这些异常数据加以鉴别并挑选出来,保证标注数据的整洁性。常见的语音异常现象包括以下几种:
丢帧:在语音录制过程中,由于音频设备的问题而表现出的发音卡顿,比如语音段中某0.1秒内突然没有声音,0.1秒过后语音又恢复正常,此现象称为“丢帧”;
切音:在语音录制过程中,由于过早结束或过晚开始录制导致个别字被截断而表现出的发音不完整,此现象称为“切音”,切音示意图如下;;5.2.2 常见数据异常
吞音:在说话人发音时,由于个别字的声母或韵母未完全发音而表现出的发音不完整,此现象称为“吞音”;
喷麦:在说话人发音时,由于距离麦克风太近而表现出的录入语音不清晰,听起来有明显噗噗的声音,此现象称为“喷麦”;
重音:在说话人发音时,语音中出现两个或多个说话人,他们的音量大小相近且有大段重叠,无法分清主次,此现象称为“重音”;
空旷音:在录制过程中,由于周围环境较为空旷而表现出来的发音中带有回音,此现象称为“空旷音”;
混响:混响是另一种常见的声学场景。与回声不同,混响是语音经多次反射、折射后叠加而成的声音。
通常情况下,上述情况下的异常语音数据会被认定为无效语音。;5.2.3 基本标注规范
(1)语音段落截取:对于多段落的长语音,比如演讲语音、会议记录等,标注人员需要从中截取出多个语音小段,对切开的每个语音小段,
您可能关注的文档
- AD原理图绘制基础.pptx
- 防诈骗主题教育.pptx
- 观演建筑视线设计剧院及电影院设计PPT教案课件.pptx
- 人教部编版四年级下册语文-第3课天窗ppt课件.pptx
- 高中物理-第四章-第7节-涡流、电磁阻尼和电磁驱动ppt课件-新人教版选修3-2.pptx
- 口语交际春天里的发现ppt课件.pptx
- 青铜峡11010kV变电站电气部分设计开题报告.doc
- 橡胶制品外观缺陷和解决方案.pptx
- 元旦节ppt-(18)(必威体育精装版整理版).pptx
- 《湖心亭看雪》实用ppt课件-优秀.pptx
- 4 《生态工业园区循环经济模式下的产业链延伸与区域生态经济协同发展》教学研究课题报告.docx
- 字节跳动短视频算法推荐在内容创作中的应用与实践报告.docx
- 2025年西安市儿童医院(东区)医护人员招聘模拟试题及答案解析.docx
- 2025年景德镇市中医医院医护人员招聘模拟试题及答案解析.docx
- 钠离子电池技术发展趋势与国内外市场对比分析报告.docx
- 低空经济无人机巡检服务商业化模式的政策支持与市场拓展.docx
- 科技企业孵化器2025年建设资金申请流程与案例分析报告.docx
- 2025年南京市第二医院医护人员招聘参考题库附答案解析.docx
- 2025年河北工程大学附属医院医护人员招聘模拟试题及答案解析.docx
- 医疗信息化对医疗资源配置效率的影响与优化策略教学研究课题报告.docx
最近下载
- 2025形势与政策-加快建设社会主义文化强国.pptx
- 人教版(2025)七年级下册Unit1Animal FriendsSection B How are animals part of our lives Section B 1a~2b课件+音频(共3.pptx VIP
- 110kv变电站继电保护毕业设计.doc VIP
- 公路隧道工程施工.pptx
- 电信行业运营商业务连续性保障方案.doc VIP
- 生态酒店设计分析.pptx
- GB∕T 702-2017 热轧钢棒尺寸、外形、重量及允许偏差(高清版).pdf
- 2025-2030年中国采血器产业运行动态分析及投资战略咨询报告.docx
- 江苏旅游资源的特征与分类及开发思考.pptx VIP
- 海南大学2022-2023学年《细胞生物学》期末考试试卷(B卷)附参考答案.docx
文档评论(0)