基于文本分类之社群网路内容分析.pdf

基于文本分类之社群网路内容分析.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于文本分类之社群网路内容分析

第十五屆離島資訊技術與應用研討會 基於文本分類之社群網路內容分析 1 2 周智倫 ,林廷宇 銘傳大學電腦與通訊 工程學系 1 2 clchou@.tw, fyuway@ 一、摘要 為了使擷取下來的文章樣本能夠進行文本分 類演算,必須將大量文字組成的文章切分成多個獨 隨著網際網路的迅速發展使得人們的社交行 立之單詞,這些獨立單詞則可成為文本分類演算法 為逐漸由面對面轉於社群網路,而這類數量龐大的 之特徵樣本,而中文斷詞則是切割文章成獨立文字 社群活動數據必須有個分類機制使其具有規範 之方法中文文法的斷詞先天上就比英文文法還要, 性。文本分類是資料探勘研究的熱題之一,基於機 複雜 中央研究院資訊科學所所提供的中文斷詞系, 器學習的分類機制使得社群網路上的資訊具規範 統提供了線上斷詞的服務並且提供了 API的使 性。於本研究中採用網路爬蟲技術蒐集社群網路活 用,其系統使用之語料庫為中央研究院中文詞知識 動之資料樣本,樣本經過文本斷詞、去除停用詞等 庫小組彙整並授權中華民國計算語言學學會發行 文本預處理後,為訓練樣本建立其詞袋模型、樣本 之語料庫,但由於其 API呼叫之字數以及次數限 特徵選取以及樣本權重值,並運用分類演算法作為 制之問題,以及此中文斷詞系統並非開源專案,遂 文本分類機制,期能將文本資料有序地歸屬分類。 不以中研院之斷詞系統作為本研究使用。 良好的斷詞器例如全球最受歡迎的漢語斷詞 關鍵詞:資料探勘、網路爬蟲、文本分類 系統ICTCLAS[2] ,為中國科學院計算技術研究所 研製,但其並不開源。開源的斷詞器中最著名的便 二、前言 是「結巴 (Jieba)中文斷詞」 [2] ,Jieba的核心演算 人類的社交活動中有很大的時間處於社交網 法為使用語料庫建立 Trie 字典樹,Trie 字典樹的 路上,舉凡電子布告欄、網路新聞,若是將這些文 結構為單詞以及其機率值,首先利用正規表示式將 件逐一瀏覽通常會相當的費時,以電子布告欄「批 語句中符號與文字切割,而後把屬於文字之部分與 踢踢實業坊」 (英文簡稱:PTT)為例,使用者的瀏 Trie 字典樹比對,計算出有幾種斷詞組合並且得出 覽行為通常是進入某個討論專版後才開始逐一瀏 出現的機率值,而根據這些單詞組合與機率值組合 覽版內之文章,雖然這些文章廣義上屬於該專版 表示成一個有向無環圖(DAG) 。若連續出現某個 內 ,但文章之間的內容可能關係不大甚至毫無關 單字詞,則將這些單字詞組合匯入隱馬可夫模型 係,使得使用者只想瀏覽某類相關文章卻得一篇篇 (Hidden Markov Model Viterbi)Viterbi 演算法計算 瀏覽標題。本研究採用文本分類演算法訂製一分類 是否能組合成新的單詞,提升斷詞組合之達意度。 機制,將大量雜亂的文章經過設計好的分類規則後 結巴(Jieba)中文斷詞在處理詞語歧義性與新詞識 變得群集化 ,使用者無須 別有著很的效能,因此為本研究採用之。 逐一

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档