- 1、本文档共27页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
二、相关背景知识.doc.doc
PAGE \* MERGEFORMAT 32
相關背景知識
蛙鳴聲紋辨識系統主要分為兩個部份,聲紋模型建置及聲紋辨識,其流程如圖2.1所示,將n種的蛙鳴訊號訓練樣本,經由模型的建置求得每種蛙類的聲紋模型,作為之後比對與辨識的依據。在聲紋辨識之前,由於錄製的音檔是一連串的離散訊號,在比較兩個聲音波形差異時,其比對的點數會過於龐大,且也會有時軸上無法校正的問題,造成比對上的錯誤率、複雜度上升。因此,在做聲紋比對與辨識之前會需要將聲音訊號做一些適當的前處理。
圖2.1 聲音辨識基本流程
一般來說,要將未知的聲音訊號做比對與辨識之前需要做訊號前處理(Preprocess),裡面包含了預強調(Pre-emphasis)、取音框(Frame)、端點偵測(Endpoint Detection),經由前處理之後做特徵參數擷取(Feature Extraction)、比對與辨識(Match),最後即產生辨識結果。
然而,雖然聲紋辨識的技術日趨成熟,但野外所錄製的聲景資料時常會有蛙類齊鳴的現象,這將導致信號處理之複雜度,進而影響辨識的效果。如圖2.2所示,圖2.2(a)是由圖2.2(b)與圖2.2(c)所混合的蛙鳴訊號。
拉都希氏赤蛙與梭德氏赤蛙混音鳴叫訊號
拉都希氏赤蛙鳴叫訊號
梭德氏赤蛙鳴叫訊號
圖2.2 混合蛙鳴及單一鳴叫訊號
對於此種問題,一般通常利用盲訊號分離(Blind Source Separation, BSS)的技術進行混音分離再個別辨識。其中以獨立成分分析法(Independent Component Analysis, ICA)是最為廣泛應用,但ICA屬於多麥克風錄音環境之下,對於單支麥克風的野外錄音環境無法適用。因此,有學者提出非負矩陣分解法(Non-negative Matrix Factorization, NMF)來解決此問題。以下將在各小節一一詳細說明聲紋辨識的基本技術及非負矩陣分解法與延伸版本稀疏雙反旋積非負矩陣分解法(Sparse Non-negative Matrix Factor 2-D Deconvolution, SNMF2D)。
聲紋辨識基本技術
聲音訊號要辨識提取特徵參數之前,為了使訊號能夠更易於處理,更能正確得到聲音訊號的特性,因此會先將訊號做前處理(Preprocess),其流程如圖2.3所示,包含預強調(Pre-emphasis)、取音框(Frame)、加窗(Window)、端點偵測(Endpoint Detection)接著是取特徵參數(Feature Extraction)及比對與辨識(Match and Recognition)的動作??以下將針對各項做詳細說明。
圖2.3 前處理流程圖
預強調
預強調是將聲音訊號通過一個高通濾波器(High Pass Filter),這是由於聲音訊號從發生體發聲到錄音設備接收過程中,其高頻部分會隨著頻率增加而產生能量衰減的現象,而此一高通濾波器的目的即是為了消除並補償發聲過程中聲帶與嘴唇所產生壓抑高頻的效應,意即用來突顯高頻的共振峰,其公式為:
(2.1)
其中a為一介於0.9~1.0之間的值,x(n)為原始時域訊號。
取音框
由於一段聲音的離散時間訊號x(n),其資料點數過於龐大不易處理,因此通常是將聲音訊號以N個取樣點為單位切割成許多小塊的連續訊號集合,通常N為256或512,涵蓋時間約為20~30ms左右,而這些小塊稱為音框(Frame),如圖xx。利用短時距處理(Short-time Processing)的概念,使得聲音訊號更易於處理。取音框的數學式如下表示:
(2.2)
圖2.4 音框處理示意圖
為了避免相鄰兩音框的變化過大,因此會讓相鄰音框之間有一段重疊區域,通常是N的1/2或1/3。以此方式重覆直到訊號結束,便能得到一序列的音框。
在取音框的過程中,音框長度的大小會影響未來訊號分析的結果,當音框的長度較大,其所需的計算量也會相對減少,但對於訊號特性改變的情形也將較難以精確呈現,使得較不易觀測到聲音訊號變化的特性。而當音框的長度較小時,在分析時會因為使用的點數變少,使得結果易受到訊號突然變化的影響,較不具代表性,計算量也會變大。故音框長度的大小,最好根據聲音訊號特性而定出較理想的值。
(a) 時域訊號
(b) 256點音框長度
(c) 512點音框長度
(d) 1024點音框長度
圖2.5 音框大小對聲音訊號分析影響
加窗
將聲音訊號取音框後,可以得到較容易處理的基本單位及減少資料的運算量。但由於音框為固定長度的關係,在音框內的訊號保留了原來之振幅值,而音框外的訊號則被設定為0,會破壞了聲音訊號的特性,造成了不連續的現象。因此,為了消除各個音框兩端可能會造成的不連續性,能夠讓兩兩音框之間能夠有更
您可能关注的文档
- 中国的水质评价结果统计表三.ppt
- 中国科协系统网络和资源数据库建设调查问卷.doc
- 中国(大陆)从子集2.doc
- 中央电大学生支持需求的调查DistanceLearners'Perceptionson.ppt
- 中山大学研究生培养方案模板-国际汉语学院.doc
- 中文学术专着的语句相似度计算.doc
- 中文版Visio画EER手册.doc
- 中普物业租赁管理系统-广州普瑞软件有限公司.doc
- 中电投科研院面向社会公开招聘公告信息.doc-国家电力投资集团公司.doc
- 中级第八回.doc
- 2024年中国钽材市场调查研究报告.docx
- 2024年中国不锈钢清洗车市场调查研究报告.docx
- 2024年中国分类垃圾箱市场调查研究报告.docx
- 2024年中国水气电磁阀市场调查研究报告.docx
- 2024年中国绿藻片市场调查研究报告.docx
- 2010-2023历年初中毕业升学考试(青海西宁卷)数学(带解析).docx
- 2010-2023历年福建厦门高一下学期质量检测地理卷.docx
- 2010-2023历年初中数学单元提优测试卷公式法(带解析).docx
- 2010-2023历年初中毕业升学考试(山东德州卷)化学(带解析).docx
- 2010-2023历年初中毕业升学考试(四川省泸州卷)化学(带解析).docx
文档评论(0)