LPC 分析 (线形予测分析).PPT

下载文档 降价啦

1
0
约4.92千字
约 35页
2017-08-05 发布于天津
举报
版权申诉
保障服务

LPC 分析 (线形予测分析).PPT

1、本文档共35页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

LPC 分析 (线形予测分析)

* 画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声?オーディオ、SMIL、グラフィクス情報ネットワーク専攻甲藤二郎 E-Mail: katto@waseda.jp 音声?オーディオ圧縮の原理ディジタルオーディオキャプチャ＆圧縮マイクサウンドキャプチャ音声： 8 kHz 、8 ビットオーディオ： 22.5, 44.1, 48 kHz、16 ビット典型的なサンプリングレート音声?オーディオ符号化の歴史 2 4 8 16 32 64 128 256 512 守谷： “音声符号化” 40 80 90 00 kbit/s G.711 (PCM) G.726 (ADPCM) MPEG1 MPEG4 G.728 (CELP) G.723.1 (CELP) G.729 (CELP) ボコーダ (音源モデル) GSM (CELP) VSELP PSI-CELP AMR (CELP) CD/DAT オーディオ電話波形符号化 (フィルタバンク) CELP (音源モデル) PCM 携帯音声符号化 (1) 音声合成モデル周期パルスランダム雑音ｘ G (ゲイン) 声道モデル有声音無声音ピッチ周期パルス列 (有声?無声) ピッチ周期ゲイン LPCパラメータ以下のパラメータを推定 (予測) して送信する音源 (パルス源) 声道 (フィルタ) LPC分析合成 L.Rabiner et al: “Fundamentals of Speech Recognition” 励振ベクトル音声符号化 (2) CELP CELP: Code Excitation Linear Prediction 守谷： “音声符号化” ゲイン探索ピッチ予測雑音予測 + - 誤差最小化局所デコーダ音声入力 LPC分析 LPC合成音声出力音声符号化 (3) LPC 分析 (線形予測分析) ：声道モデル LPC: Linear Prediction Coding s(n): 音声サンプル ak: LPC係数 p: LPC分析次数 G: 励振ゲイン u(n): 正規化励振項過去の k 個のサンプル値から線形予測 (注) 通常、画像のモデルでは雑音と扱う r(k): 自己相関係数 ak: 推定LPC係数 ^ 予測誤差二乗平均の最小化自己相関法 (Durbinのアルゴリズム) 音声符号化 (4) ベクトル量子化：音源パルス列励振ベクトルとゲインの探索： d: ひずみ x: 目標ベクトル (入力音声) A: LPC係数行列 g: ゲイン c: 励振ベクトル (パルス列) となる励振ベクトルとゲインを探索さまざまな探索手法 ... 励振ベクトル → ベクトル量子化ゲイン → スカラー量子化 (声道パラメータ → ベクトル量子化) コードブックベクトル量子化入力出力インデクスコードブック探索事前学習音声符号化 (5) ベクトル量子化：コードブックの学習 (1) K-平均アルゴリズム (一般化 Lloyd アルゴリズム) クラスタ (符号ベクトル) 初期化最近隣 (NN) 探索クラスタ重心更新新しい学習ベクトルの入力 (M: 符号ベクトル数) (L: 学習ベクトル数) (ユークリッド距離の場合) 欠点：最終結果が初期ベクトルに依存音声符号化 (6) ベクトル量子化：コードブックの学習 (2) LBG アルゴリズム全学習ベクトルの重心算出 (初期化) クラスタ分割最近隣 (NN) 探索クラスタ重心更新新しい学習ベクトルの入力 k-平均アルゴリズムオーディオ符号化 (1) オーディオ符号化の基本音声入力周波数分割周波数分析心理聴覚分析量子化エントロピー符号化周波数分割、周波数分析： FFT、サブバンド分割 (QMF)、MDCT 心理聴覚分析：絶対閾値とマスキング量子化、エントロピー符号化：スカラー量子化とハフマン符号オーディオ符号化 (2) 心理聴覚分析絶対閾値：人間は絶対可聴閾値よりも大きな音しか知覚できないマスキング (相対閾値)：大きな音の周波数の近傍の小さな音の周波数は知覚できない振幅振幅周波数周波数聞こえる聞こえない聞こえる聞こえないオーディオ符号化 (3) MP3 (MPEG-1 Layer III) QMF 適応ブロック長 MDCT FFT 心理聴覚分析非線形量子化量子化制御ハイブリッド分割ハフマン符号化 QMF FFT 心理聴覚分析線形量子化符号化 cf. Layer I, II オーディオ符号化 (4) MPEG-2 A