应用语料库和语意相依法则於中文语音文件之摘要.PDF

应用语料库和语意相依法则於中文语音文件之摘要.PDF

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用语料库和语意相依法则於中文语音文件之摘要

應用語料庫和語意相依法則於中文語音文件之摘要 Spoken Document Summarization Using Topic-Related Corpus and Semantic Dependency Grammar 黃建霖 謝嘉欣 吳宗憲 國立成功大學資訊工程系 Email: {chicco, ngsnail, chwu}@.tw 摘要 自動語音 文件摘要技術 ,可應用於資訊的檢索 、語意壓 縮及資料記錄 等方面。目前自動語音摘要存在 幾個問題 ,首 先是語音辨識準確率的提升 ,以及如何對語音內容 萃取重要資訊 、生成在句法及語意上合理 的摘要結果 。本論文提出ㄧ應用主題相關語料庫和語意相依法則於中文語音文件之摘要 。首 先,語音文件 透過大詞彙連續語音辨識的 方法,將語音辨識成文字,並獲得摘要單 元斷點、音節 以及詞等資訊 。語音摘 要部份 ,就語音本質從五個分數去分析,分別為:語音辨識信賴分數、詞重要性分數、語言分數、句法結 構分數及語意相依法則分數 ,而後利用動態規劃搜尋演算法 (dynamic programming algorithm, DP)獲得初步 摘要結果 。最後 ,為了使摘要語音串 接輸出能具平滑特性 ,我們將摘要語音的有效語音段取 出,計算語音 頻譜特徵 ,考慮串聯單 元彼此間的流暢度 ,挑選語音文件中重複的單 元以串接生成摘要語音 。由實驗結果 得知 ,本研究所提出之自動語音摘要 架構與人工摘要結果相比 ,能有效地萃取重要資訊 ,串接合 成流暢的 摘要語音 。 1.簡介 近年來電腦 、電信網路、 通訊與多 媒體等資訊科技的成熟發展 ,政府為提升行政效率,投入大量人 力物力從事資訊化 ,其中電子公文就是一個很好的例子 。現今資訊科技進步 ,改變 了人類溝通方式,也改 變了知識的管理和傳承 ,以及資訊的散播和儲存, 對人類社會產生革命性的影響。目前國立故宮 博物院 、 國立歷史 博物館等負責保存國家文物的機 構 ,也積極地與產學界合作發展數位典藏計畫 ,將傳 統文化創作 的保存工作 ,利用新科技以資訊化的 方式長久保存。此外不乏一般的大型企業、新聞傳播事 業等,本身都 保有大量累積的資訊 。隨著科技的進 步,資料型態可能已不再侷限於 文字檔案,也包含各式的多 媒體影音 資料,如:圖片、聲音及影像等。因此許多學者專家研究如何編碼壓縮,研究體積更小、容量更大的儲存 媒體,除此之外,文件檢索 、摘要一直以來都是研究的重要主題 。知識傳授, 教育學習以及理念的傳播 , 透過語音表達是最自然 而且直接的方法。自動語音摘要技術對語音資 料做語意上的壓縮 ,目的在於依使用 者需求 ,在大量的資料裡將 無用多餘的資訊去除 ,保留 具代表文章意 涵的資訊並且自動建構 出合乎文法及 語意的內容。 自動語音 文件摘要研究的主題在於語音辨識 、摘要模型 以及語音串接 語音辨。 識雖 然仍存在有許 多瓶 頸 ,但由於過 去學者的努力 ,已累積有相當的研究 成果。目前中文語音辨識研究多 以統計式模型的方法 為 主,應用隱藏 式馬可夫模型(hidden Markov model, HMM) ,來建立以音節或次音節為基礎的聲 學模型,並 配合多連語言模型的應用,可將大量連續語音做詞彙的 辨識。 摘要部份可分 為文字摘要及語音摘要 ,文字摘要研究主要在於分 析文章結構 、字詞重要性 ,一般常見 的方法如: 分析段落位置、句子長度、以詞頻和反轉文件頻率表示(term frequency * inverse document frequency, tf.idf計算詞的) 重要性等 [1][2] 。相對於文字 ,語音摘要需要透過自動語音辨識 ,透過文字分析語 意層面的意涵 ,因 此辨識的好壞會對摘要結果產生影響 ,且因 為語音特性像是音高 、周 期或能量 等[3] ,可 提供音韻上的分析來決定重要語句的選擇 。過去日本東京工業大 學的研究 ,就 對語音摘要提 出了很好的基 本概念,透過語音摘要 參數的擷取 配,合動態規劃 搜尋演算法 ,找尋最佳的詞句組合 [4][5] 。但 方法上缺乏 對語意成分的分析理解,且對於

文档评论(0)

l215322 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档