- 1、本文档共99页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
个关联词对-网路邮局
資訊檢索與知識探勘 簡介 主題檢索 關聯分析 自動分類 自動歸類 自動摘要 時間事件分析 系統展示 結語 文件資訊探勘 (text mining, knowledge discovery in text)意義: 擷取隱晦、有用、未被發掘、有潛在價值的資訊或知識 互動、反覆的過程來探索文件庫以發現新的、有趣的訊息或規律 依賴人工解讀結果,使發現的訊息變成有用的資訊或知識 具體項目(工具): 資訊檢索、擷取、關聯、摘要、歸類、分類、時間事件分析 應用: 資訊搜尋、知識萃取、知識管理、犯罪分析、案例追蹤 使用的技術: 資料庫管理技術、統計、機器學習、人工智慧、資訊視覺化、資訊科學、圖書館學、簡單的文字處理工具、處理流程的彈性串連 考量的因素(面臨的挑戰): 要能處理大量資料 要能快速回應、提供互動性 多面向、多維度的分析 高階、視覺化的使用介面 主題檢索 意義: 根據使用者的資訊需求,找出符合需求之文件或文字 應用: 前案檢索、相似案例檢索(技術專利、法院判例) 案例比對 案例關聯 案例分類 案例歸類 案例時間事件分析 使用技術: information retrieval、NLP、machine learning 自動索引 意義: 對文件、詞彙進行分析、轉換、組織 便於有效率的高階運用 應用: 檢索、關聯、分類、歸類、摘要、趨勢分析等工作的核心運算與結構 使用的技術: Hash, trie, B-tree, … fast sorting, data compression, … Stemming, stopwords, ngrams, … Authority control, thesaurus, topic map, ontology, … Natural language processing, machine learning, … File format parsing, language identification, … Security control, user control, access control, robot, … Support for different OSs, DBMS, platforms, … 資訊檢索的問題 字串不匹配(vocabulary mismatch):查詢詞與文件記載(或索引詞)不同 同義:「筆記型電腦」vs「筆記本電腦」(形似),「閣揆」vs「行政院長」 廣狹義:「攜帶型」vs「掌上型」, 使用者需求差異大:同樣的檢索詞,但相關的文件會因人而異 Known item search 已知「作者」、「人名」;已知文件內的字串:「嘿嘿嘿」、「這我不聽他的」 Unknown item search: 無法精確表達查詢字串:人名、地名、機構名、專有名詞、特定領域名稱 不知如何表達查詢字串:「晶圓代工的發展前景」、「電視廣告對兒童的影響」 領域需求差異大:斷詞需求、查詢功能 「中醫工會」:「治虛寒,五香、加八角、加薑,加味米酒…」 「社文中心」:「D’eng Xiaoping’s legacy 」 資料本身不一致、不乾淨,檔案格式差異大 民83年 vs 1994、年代日期格式不同 異常標點符號、字碼、dash 、single quote 資料誤植、OCR 雜訊文字 Data cleaning is required 文件格式、資訊架構、作業環境 需要解各種檔案格式:HTML、XML、Office、PDF、ZIP、EMAIL、BBS … 資訊來源與權限控管:File systems、DBMS、Web、Notes … 檢索系統的五個面向 可從這五點瞭解及預測核心檢索系統的表現 (未考慮文件格式、權限控管、資訊架構) 索引詞模式 檢索模式 權重模式 索引檔結構 查詢模式 索引詞模式 檢索系統建構索引詞所依據的方法 關係系統比對查詢字串的能力 「以詞彙為主」(word-based) 前組合 詞庫更新不及、或涵蓋範圍不足,會有找不到資料的情形 「以字元為主」(character-based) 後組合 「中國」會索引成「中」及「國」 比對到含「中國」、「國中」或「開發中的國家」等文件 「N-gram」索引法 N-gram為文件中任意N個連續字元 「中國社會」N=2時產生「中國」、「國社」、「社會」三個索引詞 可排除或降低「字元法」中類似「中國」與「國中」的字串順序問題 可省去「詞彙法」中維護詞庫的煩惱 檢索模式 系統比對檢索條件與相關文件的依據 「布林模式」 優點:速度快、檢索者可完全控制檢索過程,並預測檢索結果 對需求明確的檢索(如明確的作者名、題名)非常有效 缺點:結果沒照符合程度排序、一般使用者較難表達複雜查詢條件 「向量模式」 轉換文件及查詢語句到向
文档评论(0)