网站大量收购闲置独家精品文档,联系QQ:2885784924

基于C#与Matlab集成的音频分类系统设计与实现.docxVIP

基于C#与Matlab集成的音频分类系统设计与实现.docx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

-1-

基于C#与Matlab集成的音频分类系统设计与实现

杨会云1,郑继明2

1.重庆邮电大学,计算机科学与技术学院,重庆(400065)

2.重庆邮电大学,数理学院,重庆(400065)

摘要:音频分类是基于内容的音频检索一个很重要的环节,因此音频分类系统的建立显得尤为重要。本文提出了采用COM组件实现Matlab与C#的混合编程来实现音频自动分类系统。介绍了系统的体系结构、主要功能、运行情况及开发的关键技术。叙述了音频分类中常用的各种方法,并建立了基于HMM-SVM的音频分类模型。结果表明该模型识别效率较高。该系统可以实现简单的基于内容的音频检索功能,为以后更复杂的音频检索打下了基础。

关键词:COM组件;HMM-SVM;音频分类;Matlab;C#中文图分类号:TP39

1引言

早期的音频检索系统(ARS)一般采用人工标注的检索方法,即通过人工方法直接对音频数据的属性或者描述进行标注,然后结合文本检索技术与用户所查询的音频内容进行匹配。但是,随着数据量的不断增加,人工标注的可行性也越来越小。为了解决上述问题,基于内容的音频检索技术应运而生。其中音频分类是基于内容的检索中一个很重要的环节。音频自动分类的方法很多,模式识别中的分类方法都可以应用于音频的分类,常用的方法有神经元网络[1]、最近特征线NFL(NearestFeatureLine)[2]、隐马尔可夫模型[3][5]和支持向量机[4]等。近些年来,很多学者致力于音频分类方法的研究而忽略了音频分类系统的建立。

Matlab是一种专门以矩阵形式处理数据的科学计算软件,具有编程简单、数值计算和仿真能力强、易于扩展移植的优点,但是其执行效率低,在开发应用程序界面和对外围设备的控制能力上较差,程序调试不方便。C#是专门用于.NET的新编程语言,具有简单易用、类型安全、执行效率高等优点。与Matlab相比,C#开发应用程序界面和操作外围设备快捷高效,而开发科学计算和数值分析功能则较为困难,效率不高。

针对以上问题,本文通过COM组件技术实现了C#和Matlab之间的混合编程,开发设计了一种通用的音频分类系统。

2系统目标

基于内容的音频检索技术,国外研究较早、研究也较深入;国内研究起步晚、理论和实践还不够成熟。从目前研究和应用的现状看,音频分类检索技术仍处于起步阶段。音频分类检索技术还没有完全自动化和智能化。本系统的基本目标是能把用户输入的音频简单的识别分为环境音、混合音(带背景音乐的语音)、音乐和纯语音中的一种,并从音频库中检索出把相似的音频反馈给用户。其中,音乐又分成了乐器音和流行音乐两种。具体目标如下:

(1)音频数据的采集与处理及基本音频数据库的管理与更新;

(2)音频特征的提取及归一化处理;

(3)开发基于HMM-SVM的音频分类模型。

3.系统的开发与实现

3.1系统开发平台及体系结构

-2-

整个系统前端开发平台采用了:微软公司的VisualStudio2008(C#开发语言)和

MathWorks公司的Matlab7.0版本。

后台开发平台采用的微软公司的SQLServer200和Sybase公司的PowerDesigner。

Matlab和C#都提供了对COM组件的支持。C#是.NET环境的核心开发语言,.NET环境对COM提供了运行库可调用包装(RuntimeCallableWrapperm,RCW)的形式来处理COM组件的调用。而Matlab则提供了对COM的支持,可作为一个自动化服务器,为跨越进程甚至网络访问和使用Matlab的功能提供了一个途径。

系统结构分为三个部分:首先是音频文件的收集与处理,形成音频数据库;然后是音频文件的特征提取以及分类器模型的建立;最后是给予用户反馈结果。图1为音频分类系统结构图:

Matlak程序特征提用户

Matlak程序

特征提

用户

提交音频例子

音频分类系统请求回应检索结反馈

音频分类系统

请求

回应

检索结

数据库

音频特征库

音频特征库

原始音频库

原始音频库

图1系统体系结构流程图

3.2系统功能实现

音频分类是根据音频的时域、频域特征,将不同内容的音频数据进行分类。在音频检索中,不同类型的音频数据需要不同的处理方式。例如当知道一段音频信号时语音时,便可采用语音识别技术对内容进行分析,如果是音乐信号,则可采用相应的音频信号处理技术进行分析。因此有必要建立一个合适的音频分类系统。

根据系统体系结构及特点,结合实际的研究价值,开发了音频分类系统,其实现的主要功能有:

(1)音频文件管理。负责音

文档评论(0)

166****9220 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档