- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于文本分类之社群网路内容分析
第十五屆離島資訊技術與應用研討會
基於文本分類之社群網路內容分析
1 2
周智倫 ,林廷宇
銘傳大學電腦與通訊 工程學系
1 2
clchou@.tw, fyuway@
一、摘要 為了使擷取下來的文章樣本能夠進行文本分
類演算,必須將大量文字組成的文章切分成多個獨
隨著網際網路的迅速發展使得人們的社交行 立之單詞,這些獨立單詞則可成為文本分類演算法
為逐漸由面對面轉於社群網路,而這類數量龐大的 之特徵樣本,而中文斷詞則是切割文章成獨立文字
社群活動數據必須有個分類機制使其具有規範 之方法中文文法的斷詞先天上就比英文文法還要,
性。文本分類是資料探勘研究的熱題之一,基於機 複雜 中央研究院資訊科學所所提供的中文斷詞系,
器學習的分類機制使得社群網路上的資訊具規範 統提供了線上斷詞的服務並且提供了 API的使
性。於本研究中採用網路爬蟲技術蒐集社群網路活 用,其系統使用之語料庫為中央研究院中文詞知識
動之資料樣本,樣本經過文本斷詞、去除停用詞等 庫小組彙整並授權中華民國計算語言學學會發行
文本預處理後,為訓練樣本建立其詞袋模型、樣本 之語料庫,但由於其 API呼叫之字數以及次數限
特徵選取以及樣本權重值,並運用分類演算法作為 制之問題,以及此中文斷詞系統並非開源專案,遂
文本分類機制,期能將文本資料有序地歸屬分類。 不以中研院之斷詞系統作為本研究使用。
良好的斷詞器例如全球最受歡迎的漢語斷詞
關鍵詞:資料探勘、網路爬蟲、文本分類 系統ICTCLAS[2] ,為中國科學院計算技術研究所
研製,但其並不開源。開源的斷詞器中最著名的便
二、前言 是「結巴 (Jieba)中文斷詞」 [2] ,Jieba的核心演算
人類的社交活動中有很大的時間處於社交網 法為使用語料庫建立 Trie 字典樹,Trie 字典樹的
路上,舉凡電子布告欄、網路新聞,若是將這些文 結構為單詞以及其機率值,首先利用正規表示式將
件逐一瀏覽通常會相當的費時,以電子布告欄「批 語句中符號與文字切割,而後把屬於文字之部分與
踢踢實業坊」 (英文簡稱:PTT)為例,使用者的瀏 Trie 字典樹比對,計算出有幾種斷詞組合並且得出
覽行為通常是進入某個討論專版後才開始逐一瀏 出現的機率值,而根據這些單詞組合與機率值組合
覽版內之文章,雖然這些文章廣義上屬於該專版 表示成一個有向無環圖(DAG) 。若連續出現某個
內 ,但文章之間的內容可能關係不大甚至毫無關 單字詞,則將這些單字詞組合匯入隱馬可夫模型
係,使得使用者只想瀏覽某類相關文章卻得一篇篇 (Hidden Markov Model Viterbi)Viterbi 演算法計算
瀏覽標題。本研究採用文本分類演算法訂製一分類 是否能組合成新的單詞,提升斷詞組合之達意度。
機制,將大量雜亂的文章經過設計好的分類規則後 結巴(Jieba)中文斷詞在處理詞語歧義性與新詞識
變得群集化 ,使用者無須 別有著很的效能,因此為本研究採用之。
逐一
您可能关注的文档
- 程林丽 - 中国农业大学动物医学院.doc
- 高隐蔽性储存方式 - the safe house sg pte ltd.pdf
- 高考资源网模版.ppt
- 碱渣对锌(ⅱ)离子吸附特性的研究 - 环境工程学报.pdf
- 巢蛋白过表达对小鼠肝脏增殖的影响 - 中国实验动物学报.doc
- 毛细管作用力驱动碳纳米管中hcpt的装载与释放.pdf
- 草乌多糖金属配合物的制备、表征与抗癌活性研究 - 郑州大学学报(工学 .pdf
- 去泛素化酶usp11 在细胞中的功能作用及其研究进展.pdf
- 魔芋葡甘聚糖凝胶体系对带鱼鱼糜流变及质构特性的影响 - 西南大学学报.pdf
- 异甘草酸镁对纤维化大鼠肝脏tgf-β1 及smad 蛋白表达的影响effects .pdf
文档评论(0)