- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
詞類歧義的本質與解釋-以大量語料庫為本的分析研究
詞類歧義的本質與解釋-以大量語料庫為本的分析研究 黃居仁 歧義現象 整體架構 1.前言:研究背景 2.歧義性:歧義發生可能性的預測 3. 4.理論模式與解釋 5.結語 1.前言:研究背景 1.1研究方法:語料庫為本的宏觀研究 1.2詞類歧義:理論假設與基本數據 1.2.1詞類歧義定義 1.2.2詞類歧義的基本數據 1.3研究目標:影響詞類歧義因素探討 1.3.1歧義性與歧義度:兩種相關性的定義 1.3.2研究對象:詞類歧義的相關因素 1.前言:研究背景 自然語言一定會有歧義現象產生 自然語言處理工程:歧義是最大的瓶頸之一 信息理論:排除歧義現象可提高有效度 研究歧義現象的學術貢獻 歧義現象的預測模式:自然語言處理與研究的進步 歧義現象的模式與理論(認知的解釋與必然性):瞭解人類的語言與認知機制 1.1研究方法:語料庫為本的宏觀研究 過去個案式研究:對歧義現象描述與解決某類歧義問題策略提出創建理論,但無法提供宏觀的實證描述與理論模式,無法解釋為何有歧義?歧義於語言訊息中扮演的角色? 語言學:某一組詞彙歧義現象或某一特定結構的歧義現象分析 心理學:實驗設計以個案式研究為基礎 計算機語言學:針對特定結構 語料庫為本的宏觀研究 描述與預測:對整個語言中的歧義現象的全面描述與預測。 驗證:歧義現象預測經由語料庫及統計式自然語言處理得到驗證。 歧義現象的模式 預測歧義的趨勢 歧義現象的總體解釋 中央研究院現代漢語平衡語料庫 1996年上網,第一個中文標記語料庫 1998年完成五百萬詞的詞類標記 提供宏觀中文詞類歧義現象的環境與足夠資料 1.2詞類歧義:理論假設與基本數據 詞義標注語料庫 規模:詞義自動標注技術難度過高,現有規模約數萬詞,不足以作為整體語言規律歸納之依據。 詞類標注語料庫 規模:可達數百萬到上億(BNC) 信心度:正確信心度達95%以上 語料庫的語料取樣 推論:實驗心理語言學,人類認知器官與功能一致前提下,將個案實驗推論於全人類認知行為。 代表性:語料庫以新聞資料為主,可代表說話者閱讀與理解語言的典型內容。 語料庫中的歧義現象,是人類面對處理歧義時的內容。 1.2.1詞類歧義定義 詞類歧義定義 詞類歧義(經驗主義):語料庫中的詞是否曾被標記一個以上的詞類 詞類標記分類集:粗細不同分類集的影響( 表一) 46個詞類:平衡語料庫 13個詞類:通用的詞類分類 表一 研究院語料庫詞類標記總表暨通用詞類對應表 1.2.2詞類歧義的基本數據 黃居仁 等2001詞類歧義現象研究的歸納與推論 (1)詞類歧義配對 2070(=46*45)組的詞類歧義配對組合中,語料中只出現1375組 某些詞類歧義配對不出現,可探討其認知或語法理論的原因 (2)歧義詞數目 146929詞中,6316詞有兩個以上詞類,歧義詞佔整體詞數4.298%。 詞類歧義只限於數量不大的詞彙上,詞類歧義與詞彙本身的特性有相當的關係。 (3)歧義詞使用頻率 6316個歧義詞在語料庫中使用的總次數,佔整體語料庫54.59% 詞類歧義與頻率似乎有相當高的依存關係,歧義詞使用頻率遠高於非歧義詞。 1.3研究目標:影響詞類歧義因素探討 專注於頻率與歧義的相關性觀察,探討影響歧義產生的因素。 理清影響的因素與影響的相關性,輪廓出理論架構與解釋 1.3.1歧義性與歧義度:兩種相關性的定義 1.3.2研究對象:詞類歧義的相關因素 1.3.1歧義性與歧義度:兩種相關性的定義 歧義變化的程度測量 degree of ambiguity 歧義性 定義:某一詞彙或更大的語言單位發生歧義的可能性。 測量:該語言單位發生歧義的機率 解讀:相同條件下,實際發生歧義的次數越多,歧義性越高。 歧義度 定義:歧義的複雜度。 測量:可選擇的的意義越多,或幾個選擇項的機率越接近,歧義度越高。 解讀:發生歧義時,越難決定單一(正確)意義者,歧義度越高。 1.3.2研究對象:詞類歧義的相關因素 歧義性有相關性的因素 詞頻與歧義性 詞類與歧義性 證明結果 歧義性:詞類集的粗細與歧義性並不相關 歧義度:證明兩種相關因素 詞類集與歧義度 詞頻與歧義度 2.歧義性:歧義發生可能性的預測 從幾個相關因素預測歧義是否會發生,由因素推論出可能的動機,從而解釋歧義發生的原因。 2.1歧義性的研究方法 2.2詞頻與歧義性 2.3詞類與歧義性 數據與統計來源:引用黃居仁等2001發表的實驗結果與分析 2.1歧義性的研究方法 經驗法則定義 標記原則:任何詞在語料中每次使用時只有一個詞類 歧義詞:只有當某個詞在語料庫中不同的地方標視為兩個以上的不同詞類,才將該詞視為有詞類歧義的例子。 歧義屬性:每個詞類歧義屬性的值只能是0或1 歧義的機率計算方式:詞頻排名區隔法 (1)將詞彙庫( 146929詞)依照詞頻排序 (2)將排序
文档评论(0)