- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基於统计方法之中文搭配词自动撷取
基於統計方法之中文搭配詞自動擷取
張翠芸、柯淑津
東吳大學資訊科學系
Department of Computer Information Science
SooChow University
ms9513@sun.cis.scu.edu.tw
ksj@cis.scu.edu.tw
摘要
本研究採取以下四個步驟擷取出雙連詞、三連詞、四連詞之詞彙或詞性組合之搭配詞。
首先採用 Smadja’s Xtract 的平均數及變異數的方法,擷取具有變動距離模式所共同出現
的詞彙或詞性的組合,接著使用搭配詞顯著性的衡量方法:相互資訊值及 T 檢定值。
通過以上檢驗的候選搭配詞,經由對照中央研究院詞義標示語料庫之目標詞的結果,在
同樣的跨距下,若同為一個詞義者,則我們以此搭配詞作為詞義標示知識。並且,本研
究將產出之搭配資訊應用於詞義自動標示處理,達到 20.07%的應用率及 90.83%的正確
率。
Abstract
We take the four following steps to extract collocations made of combinations of 2, 3, 4
words and/or part of speech, respectively. First, we use “Smadja’s Xtract” to extract the
co-occurrence combinations of words and/or part of speech of varying distance by
computing means and variances. Second, we evaluate the significances of collocation
candidates by 2 metrics: mutual information and t-test value. At last, we compare the head
words of tagged word sense corpus made by Academic Sinica with the collocation candidates.
If in the same distance, the head words of collocation candidates match the ones made by
Academic Sinica, we say they are collocations. In addition, we apply the collocation
information produced from this research to word sense disambiguation. It reaches application
rate of 20.07% and precision rate of 90.83%.
關鍵詞:中文搭配詞,相互資訊值,自然語言處理,統計方法,T 檢定值,詞義辨識
Keywords: Chinese collocation, mutual information, natural language processing, statistical
method, t-test, word sense disambiguation.
一、簡介
不同民族的歷史文化知識背景以及人們的思考邏輯模式不同,看待同樣的人事物、同樣
的行為情境過程,在語言的描述上也會有所不同。每個地區的語言都有其習慣性的用
法,而所謂的搭配詞 (collocation) 廣義而言,就是指兩個或多個詞依照語言習慣性結
合在一起表示某種特殊意涵的詞彙現象。搭配詞在不同的研究領域上各有不同的解讀
您可能关注的文档
最近下载
- 滚齿差动挂轮的计算机辅助选择.doc VIP
- 模拟电路习题答案.doc
- 等腰三角形的性质(分层作业)(解析版).pdf VIP
- AP汉语语言和文化 2019年真题 附评分标准 AP Chinese Language and Culture 2022 Real Exam with Scoring Guidelines.pdf VIP
- 2025年废动力电池回收行业分析报告及未来五到十年行业发展趋势报告.docx
- 2024年河北省石家庄市高考英语质检试卷(二)(含详细答案解析).pdf VIP
- 中华人民共和国国家标准城市居住区规划设计规范.doc VIP
- 自动送料装置结构设计设计说明.doc VIP
- 模拟电路试题库及答案 .pdf VIP
- 《模拟电路》试题库及答案.docx VIP
文档评论(0)