- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文件内容之分析—语料库为本的模型.PDF
文件內容之分析 語料庫為本的模型
—
陳 光 華
國立臺灣大學圖書館學系
陳 信 希
國立臺灣大學資訊工程學系
【摘 要】
一般資訊檢索的研究著重於檢索模型的建構、查詢的回饋機制、檢索行為的探討、檢索系統的
執行效能。本文則把研究的重心回歸資訊或文件本身,希望對資訊的內容有一個初步的瞭解。
本文根據三個因素: )詞彙的重複, )詞彙的重要性, )共容語意,提出一個基於真實語
1 2 3
料的文件內容分析的模型。這樣的模型著重於文章中名詞/動詞與名詞/名詞之間的配對關
係。本文也說明如何使用文件分析模型進行文件切分與文件主題辨識的研究,同時討論相關實
驗的結果。
【ABSTRACT】
An important step to understand text is to build the discourse structure through cohesion and
coherence. However, to build the discourse structure in turn depends on the full understanding of texts,
so that many efforts on this line are not automatic and not successful. A corpus-based model based on 1)
repetition of words, 2) importance of words, and 3) collocational semantics for texts is proposed in this
paper. It focuses on association norms of noun-noun relations and noun-verb relations defined on
discourse level and sentence level, respectively. According to this model, a text partition algorithm is
proposed to determine the boundaries of discourse structures and a topic identification algorithm is also
presented. The results of a series of experiments show that the proposed model is promising.
一、緒論 而得的模型,希望能夠對這項研究課題有些
微的貢獻。
一般資訊檢索的研究著重於檢索模型的
建構、查詢的回饋機制、檢索行為的探討、 在正常的情形下,文件並非僅僅是一系
檢索系統的執行效能。本文則把研究的重心 列句子的並排,而是組織完善、有中心意念
回歸資訊或文件本身,希望對資訊的內容有 的文字鋪陳,提供讀者閱讀、欣賞、獲得資
一個初步了瞭解。因為這項工作非常困難, 訊、或是與作者溝通等等的功能。言談分析
( )的目的在於探究文件
少有新的突破,從事這方面研究的學者專家 Discourse Analysis
並不多見。本文提出一種基
文档评论(0)