- 1、本文档共58页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于内容的音频信息检索
2025/1/12WuGangshan:ModernInformationRetrieval2Contents概述查询方式语音检索音频检索音乐检索
2025/1/12WuGangshan:ModernInformationRetrieval31音频检索概述音频是多媒体中的一种重要媒体。我们能够听见的音频频率范围是60Hz~20kHz。其中语音大约分布在300Hz~4kHz之内,而音乐和其他自然声响是全范围分布的。声音经过模拟设备记录或再生,成为模拟音频,再经数字化成为数字音频。数字化时的采样率必须高于信号带宽的2倍,才能正确恢复信号。样本可用8位或16位比特表示。
2025/1/12WuGangshan:ModernInformationRetrieval41音频检索概述音频是声音信号的表示形式,作为一种信息载体,音频可以分为三种类型:波形声音对模拟声音数字化而得到的数字音频信号。它可以代表语音、音乐、自然界和合成的声响。语音具有字词、语法等语素,是一种高度抽象的概念交流媒体。语音经过识别可以转换为文本。文本是语音的一种脚本形式。音乐具有节奏、旋律或和声等要素,是人声或/和乐器音响等配合所构成的一种声音。音乐可以用乐谱来表示。
2025/1/12WuGangshan:ModernInformationRetrieval5音频信息的特征不同类型的声音具有不同的内在内容。人们感受到的内容不同。但从整体看,音频内容分为三个级别:最低层的物理样本级、中间层的声学特征级和最高层的语义级,如下图所示。从低级到高级,其内容逐级抽象,内容的表示逐级概括。
2025/1/12WuGangshan:ModernInformationRetrieval6音频信息的特征音乐叙事、音频对象描述、语音识别文本、事件……感知特征:音调、音高;旋律、节奏…声学特征:能量、过零率、LPC系数…音频结构化表示采样率、时间刻度样本、格式、编码……语义特征级物理特征级样本数据级模糊匹配(基于内容的检索)严格匹配
2025/1/12WuGangshan:ModernInformationRetrieval7级别特征显式表示可否用于检索物理级声学级语义级音频信息的特征取样频率、量化精度、编码方法、声道数目、时间刻度信息(时:分:秒:帧)...音量、音高、音域、音色、….如一段语音的中心思想、包含的关键词、类型等,一段音乐的旋律、情绪、主题等...是否否少部分部分全部
2025/1/12WuGangshan:ModernInformationRetrieval81音频检索概述基于人工输入的属性和描述来进行音频检索是容易首先想到的方法。该方法的主要缺点反映在:当数据量越来越多时,人工的注释强度加大;人对音频的感知,如音乐的旋律、音调、音质等,难以用文字注释表达清楚。这些正是基于内容的音频检索需要研究和解决的问题。但同时应该注意到音频检索可以利用的一个优势,那就是语音是一种特殊类型的音频,它与文本可以互相转换,因此,可以利用文本检索技术进行概念检索。
2025/1/12WuGangshan:ModernInformationRetrieval9基于内容的音频检索What?从声学特征和语义特征进行音频信息的检索称为基于内容的音频检索。困难:1数字音频是一种不透明的位流,它不显式地包含可识别或可比较的语义实体;2人工输入音频数据的属性和内容描述,工作量极大,注释的准确性依赖于人的水平、经验和工作态度;3人对音频信息(特别是音乐)的感知,如音乐的旋律、音调、音质等,难以用文字表达清楚。
2025/1/12WuGangshan:ModernInformationRetrieval102、查询方式:需求检索包含特定内容的一段讲话(计算机,互连网,多媒体技术...)检索指定说话人的一段讲话检索指定类型的一段音频(音乐、歌曲、报告、谈话...)检索指定旋律的一段音乐检索指定乐器演奏的一段音乐
2025/1/12WuGangshan:ModernInformationRetrieval112、查询方式:用户表达示例方式(byexample)也称为拟声方式(onomatopoeia)。用户使用一个声音例子表达其检索要求,查找出与该声音相似的所有声音。例如:用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声检索与飞机的轰鸣声相似的所有声音。直喻(simile)方式。通过选择一些声学/感知特性来描述检索要求,如音色、音调等。
2025/1/12WuGangshan:
您可能关注的文档
- 第十九章神经内分泌系统疾病ppt课件.pptx
- 第14章-资源最优配置和社会福利函数.pptx
- 桉柠蒎作用机理及产品资料ppt课件.pptx
- 第十章人事行政.pptx
- 第六章肌组织五年制ppt课件.pptx
- 预防校园欺凌的讲话稿.docx
- 剑桥少儿英语一级下册SB-Unit9-PPT.pptx
- 第十九章医疗纠纷鉴定.pptx
- 大学物理—曲线运动-PPT.pptx
- 《管理运筹学》第3章--线性规划的对偶问题PPT.pptx
- 2020版 沪科技版 高中生物学 必修2 遗传与进化《第4章 生物的进化》大单元整体教学设计[2020课标].docx
- 情绪价值系列报告:春节消费抢先看-国证国际证券.docx
- 精品解析:北京市东直门中学2023-2024学年高二下学期3月阶段性考试(选考)物理试题(解析版).docx
- 2020版 沪科技版 高中生物学 必修2 遗传与进化《第4章 生物的进化》大单元整体教学设计[2020课标].pdf
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第1章 人体的内环境和稳态》大单元整体教学设计[2020课标].pdf
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第1章 人体的内环境和稳态》大单元整体教学设计[2020课标].docx
- 液冷盲插快接头发展研究报告-全球计算联盟.docx
- 精品解析:北京市东直门中学2023-2024学年高二下学期3月阶段性考试(选考)物理试题(原卷版).docx
- 精品解析:北京市东直门中学2024届高三考前练习数学试卷(解析版).docx
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第2章 人体的神经调节》大单元整体教学设计[2020课标].docx
最近下载
- 河洛群侠传完美攻略流程.docx VIP
- 酒店前台失误案例及分析.docx VIP
- 普通话教学课件(共160张PPT).pptx VIP
- 转炉炼钢工技能大赛理论考试题库500题(含答案).docx
- 浅谈初中数学课培养学生核心素养策略教育论文—【课题研究】-经典通用.doc VIP
- 2024年钳工职业技能考试题库及答案 .pdf
- 2025年新高考数学一轮复习2025年新高考数学一轮复习收官卷01(学生版+解析).docx VIP
- DBJ50_T-366-2020 建设工程质量检测人员职业能力标准.docx
- 黄帝内经繁体竖排版.doc
- 新教材高一数学必修第一册第一二章综合卷(含答案) .pdf VIP
文档评论(0)