- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文词汇语意资料的整合与撷取词汇语意学的观点
中文詞彙語意資料的整合與擷取 :詞彙語意學的觀點
高照明
zmgao@.tw
台灣大學外國語文學系
摘要
本文從詞彙語意學理論的觀點整合知網(Hownet) ﹑現代漢語分類辭典﹑教育部國語辭典等資
源 ,並利用 Wordnet 和漢英辭典 ,擷取上述不同來源的中文詞彙語意訊息 。我們透過整合後
的訊息發展一套系統 ,使用者輸入兩個詞可以找出兩個詞之間的詞彙語意關係包括 (一)同
義關係 (二)反義關係 (三)上下位關係 (四)部件與整體關係 (五)相同事件 (六) 相
同領域(domain) (七)相同語意特徵 (八)相同的語意類別 (九)事件與語意角色 。
關鍵詞 :詞彙語意關係﹑詞彙知識庫﹑知網(Hownet) ﹑義元﹑語意特徵﹑語意角色﹑事件角
色轉換﹑Wordnet ﹑現代漢語分類辭典﹑重編國語辭典修訂本﹑同義詞﹑反義詞﹑上位詞﹑下
位詞﹑全體詞﹑部分詞
一 前言
詞彙語意學的發展與資訊科學及人工智慧有相當密切的關係。六零年代語言學家Fillmore
(Fillmore 1968)提出語意角色的理論架構格理論(case theory)對於語意學及句法學產生深遠的
影響 ,同一時期Wilks (Wilks 1968) 從人工智能的角度研究語意知識的表達。七零年代Shank
(Shank 1975)提出腳本理論將詞彙知識與常識具體化程序化 ,作為自然語言理解的基礎。而
Sowa 等人(Sowa 1984)則從事 conceptual graph 的研究。七零年代末期 John Sinclair (參考
Sinclair 1987) 首創以語料庫及計算機研究詞義和搭配語並編纂辭典 (Collins Cobuild English
Dictionary )。八零年代,利用機讀辭典研究語法與詞彙語意開始興起 ,其中最多研究人員使
用的資源是 Longman Dictionary of Contemporary English(LDOCE) (參考Boguraev and Briscoe
(eds) 1989) 。九零年代隨著英國國家語料庫(http://www.natcorp.ox.ac.uk/) 及相關檢索軟體
(SARA, Xaira) 的完成 ,研究人員開始有龐大的語料庫及檢索工具研究詞彙語意 。而Wordnet
計畫(/)推出(semantic concordancer)以Wordnet 詞項的意義標示語料
庫中的詞的詞義,為計算詞彙語意學奠定了深厚的基礎 。近年來越來越多標注詞彙語意訊息
的語料庫出現,如標記論元結構(argument structure )及語意角色訊息的FrameNet 、VerbNet 、
PopNet 。計算詞彙語意學研究的重心轉為利用語料庫及統計演算法 ,例如 Church 首創以互
見訊息(mutual information)和t-score 來擷取搭配語(參考Church and Hanks 1990) Church et al.
(1991) Church et al. (1994) 。Hearst (1992)透過句型擷取上下位詞 。Grefefenstette (1994)以語法
剖析器和統計擷取同義詞。Jones (2002)透過語料庫擷取反義詞。Turney (2006), Girju 等 (2007)
更進一步以統計及機器學習演算法研究詞彙語意關係 ,這與傳統透過詞彙知識庫擷取與判定
詞彙語意關係的方法大異其趣 。以大量語料結合統計或機器學習演算法的優點是不需要詞彙
知識庫即可從語料中擷取一些語意關係 ,缺點是擷取的資料不夠精確與完整必須透過專家來
校對與補充 。本文的目的在於整合現有的各種中文詞彙知識庫 ,並利用這些資料庫截長補短
來擷取最多的語意關係 ,作為未來評估機器學習演算法擷取詞彙語意關係研究的平台 。
詞彙語意關係與語意網(semantic web) 及本體論(ontology) 息息相關 。Tim Berners-Lee
(2000)提出語意網的概念描繪了下一代網際網路的遠景 。語意網的成功仰賴本體論 ,也就是
必須能清楚的表達通用或某一特定領域知識
文档评论(0)