网站大量收购独家精品文档,联系QQ:2885784924

中文新闻群聚-read.doc

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文新闻群聚-read

緒論 研究動機 這是一個資訊爆炸的時代,隨著網路的蓬勃發展,越來越多的資訊在網際網路上流通,該如何在如此龐大的資訊洪流之中找到我們所需要的資料,將會是一個益發重要的課題。 隨著網際網路的發達,人們的閱讀習慣正逐漸改變中,根據調查,雖然報紙仍是大學生最常閱讀的文字媒介,但是網路的閱讀率已經和書籍並駕齊驅了[15]。隨著電腦與網路的普及,相信未來的網路閱讀率終將超過報紙,成為人們最常接觸的資訊來源。而在網際網路中,又以全球資訊網(World Wide Web)最為人所熟悉,其便利的使用介面以及豐富多元的呈現方式,擄獲了越來越多的使用人口,這也使得全球資訊網逐漸躍升為網際網路中的主角,因此越來越多的網站如雨後春筍般成立,當中也包含了許多新聞網站,例如:中時電子報[16]、聯合新聞網[20]、明日報[19]…等。由於新聞網站眾多,為了讓使用者閱讀時更為方便,因此也出現了一些新聞整合性質的網站,例如:太一信通網羅新聞[18]、奇摩新聞[17],其功能是收錄多家新聞網站的新聞報導,加以整合並提供多樣化的新聞服務,但是部份的新聞服務還是需要人力的介入,因此若我們可以讓電腦在這方面提供更大的助力,就能夠有效地減少處理新聞文件所花的時間,也更能節省花在這方面的人力資源。 研究目的 太一信通網羅新聞所提供的「新聞群聚」就是一項需要人力介入的新聞服務,而為了使其更為自動化,我們將文件分群(document clustering)的技術應用在新聞文件上,達到新聞分群(news clustering)的目的。當網羅新聞系統到其他提供線上新聞報導服務的網站上抓取新聞標題(news title)之後,會先以新聞分類(news classification)[13]的技術將所有的新聞報導分門別類。而新聞分群的工作就是針對每一個新聞類別,找出其中描述同一事件的新聞報導,將其合為一個群聚(cluster),以便於提供「新聞群聚」服務,這樣的服務除了方便使用者在線上同時瀏覽與比較多家新聞網站的報導之外,也可以再利用多文件摘要(multi-document summarization)[14]將同一群聚當中的新聞報導內容融合,藉以提供新聞事件的摘要服務。 本論文之目的在於利用字串相似度的度量方法求得新聞標題之相似度,並藉著與分群演算法的結合來提高電腦對於新聞標題自動分群的準確度。以太一信通網羅新聞為例,該網站在每天收錄各家新聞報導的標題之後,會先將收錄到的所有標題依網羅新聞所訂定的類別定義做新聞分類,隨後再針對各類別產生新聞群聚。但是目前完成新聞群聚的過程仍然需要人力的介入,使得整個過程較為耗時,因此若能讓提高電腦辨識新聞群聚的準確度,並協助完成分群的動作,整個系統即可有效地節省人力,處理時間也將更為快速。 研究方法簡述 在完成新聞群聚之前首先要針對同一類別當中所有的新聞標題做兩兩比對,找出兩者之間的相似度,往後才能根據相似度找出哪些新聞該視為同一個群聚。目前系統只採用新聞標題來計算相似度的原因是整個系統需要很快速地處理完所有的新聞,並馬上提供服務,若加上處理新聞內文,雖然對分群的正確率會有助益,但是對整體的速度也有極大的影響。因此我們透過只處理新聞標題來節省時間,而面對分群準確率會受到影響的情形,我們期望能夠利用論文當中提出的方法彌補這個缺陷。 在計算新聞標題之間的相似度時,除了利用基本的距離度量(distance measure)之外,我們也提出一個函數,藉以結合先前所求得的各項字串距離,函數中包含了多個參數來調整各項字串距離所佔的比重,我們利用不需導式的最佳化方法(derivative free optimization method)[10]來對這些參數做最佳化,希望代入最佳化參數之後,經由此函數運算所得到的相似度能夠提升分群準確率。 取得相似度後即可利用分群法來將新聞標題做分群的動作,本論文使用的是階層式分群法(hierarchical clustering)[4,12]當中的階層式聚合演算法(hierarchical agglomerative algorithm),這個方法在執行過程中會將所有的新聞逐一合為群聚,直到所有的新聞連結成為一個二元樹。在連結的過程中將各階層的連結條件記錄下來,而系統的訓練階段就是試著從二元樹的任何階層切入,並把切入點以下仍然連結在一起的文件視為群聚,之後將此結果與資料庫中利用人工輔助完成的標準答案互相比較,反覆執行切入與比較的動作,最後就能夠找出表現最好的切入點,做為分群門檻值(clustering threshold)。而在測試階段裡,將各個類別的新聞各自形成二元樹之後,就可以找出樹中連結條件與訓練所得的切入點之值最為相近的一個階層,進而從該階層切入,即為分群結果。 章節簡介 本論文的安排如下: 說明進

您可能关注的文档

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档