网站大量收购闲置独家精品文档,联系QQ:2885784924

基于内容的音频信息检索.pptxVIP

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于内容的音频信息检索

2025/1/12WuGangshan:ModernInformationRetrieval2Contents概述查询方式语音检索音频检索音乐检索

2025/1/12WuGangshan:ModernInformationRetrieval31音频检索概述音频是多媒体中的一种重要媒体。我们能够听见的音频频率范围是60Hz~20kHz。其中语音大约分布在300Hz~4kHz之内,而音乐和其他自然声响是全范围分布的。声音经过模拟设备记录或再生,成为模拟音频,再经数字化成为数字音频。数字化时的采样率必须高于信号带宽的2倍,才能正确恢复信号。样本可用8位或16位比特表示。

2025/1/12WuGangshan:ModernInformationRetrieval41音频检索概述音频是声音信号的表示形式,作为一种信息载体,音频可以分为三种类型:波形声音对模拟声音数字化而得到的数字音频信号。它可以代表语音、音乐、自然界和合成的声响。语音具有字词、语法等语素,是一种高度抽象的概念交流媒体。语音经过识别可以转换为文本。文本是语音的一种脚本形式。音乐具有节奏、旋律或和声等要素,是人声或/和乐器音响等配合所构成的一种声音。音乐可以用乐谱来表示。

2025/1/12WuGangshan:ModernInformationRetrieval5音频信息的特征不同类型的声音具有不同的内在内容。人们感受到的内容不同。但从整体看,音频内容分为三个级别:最低层的物理样本级、中间层的声学特征级和最高层的语义级,如下图所示。从低级到高级,其内容逐级抽象,内容的表示逐级概括。

2025/1/12WuGangshan:ModernInformationRetrieval6音频信息的特征音乐叙事、音频对象描述、语音识别文本、事件……感知特征:音调、音高;旋律、节奏…声学特征:能量、过零率、LPC系数…音频结构化表示采样率、时间刻度样本、格式、编码……语义特征级物理特征级样本数据级模糊匹配(基于内容的检索)严格匹配

2025/1/12WuGangshan:ModernInformationRetrieval7级别特征显式表示可否用于检索物理级声学级语义级音频信息的特征取样频率、量化精度、编码方法、声道数目、时间刻度信息(时:分:秒:帧)...音量、音高、音域、音色、….如一段语音的中心思想、包含的关键词、类型等,一段音乐的旋律、情绪、主题等...是否否少部分部分全部

2025/1/12WuGangshan:ModernInformationRetrieval81音频检索概述基于人工输入的属性和描述来进行音频检索是容易首先想到的方法。该方法的主要缺点反映在:当数据量越来越多时,人工的注释强度加大;人对音频的感知,如音乐的旋律、音调、音质等,难以用文字注释表达清楚。这些正是基于内容的音频检索需要研究和解决的问题。但同时应该注意到音频检索可以利用的一个优势,那就是语音是一种特殊类型的音频,它与文本可以互相转换,因此,可以利用文本检索技术进行概念检索。

2025/1/12WuGangshan:ModernInformationRetrieval9基于内容的音频检索What?从声学特征和语义特征进行音频信息的检索称为基于内容的音频检索。困难:1数字音频是一种不透明的位流,它不显式地包含可识别或可比较的语义实体;2人工输入音频数据的属性和内容描述,工作量极大,注释的准确性依赖于人的水平、经验和工作态度;3人对音频信息(特别是音乐)的感知,如音乐的旋律、音调、音质等,难以用文字表达清楚。

2025/1/12WuGangshan:ModernInformationRetrieval102、查询方式:需求检索包含特定内容的一段讲话(计算机,互连网,多媒体技术...)检索指定说话人的一段讲话检索指定类型的一段音频(音乐、歌曲、报告、谈话...)检索指定旋律的一段音乐检索指定乐器演奏的一段音乐

2025/1/12WuGangshan:ModernInformationRetrieval112、查询方式:用户表达示例方式(byexample)也称为拟声方式(onomatopoeia)。用户使用一个声音例子表达其检索要求,查找出与该声音相似的所有声音。例如:用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声检索与飞机的轰鸣声相似的所有声音。直喻(simile)方式。通过选择一些声学/感知特性来描述检索要求,如音色、音调等。

2025/1/12WuGangshan:

您可能关注的文档

文档评论(0)

Savior + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档