- 1、本文档共52页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数位文字知识探勘--以中文索引典之建构及应用为例
數位文字知識探勘-- 以中文索引典之建構及應用為例 文字知識探勘簡介 索引典建構:緣由與目的 相關之研究 關鍵詞自動擷取 關聯詞自動擷取 應用範例 成效評估 近年研究主題演進圖 知識探勘 知識探勘(knowledge discovery, KD) 擷取隱晦、有用、未被發掘、有潛在價值的規則、資訊或知識的一種過程 實務上,運用資訊組織與分析等探勘技術,與使用者互動,反覆探索,發現訊息或規律,人工解讀結果,轉換規律訊息成資訊或知識。 資料探勘(data mining, DM) 處理結構化(structured)資料,即資料間有共同欄位 文字探勘(text mining, TM) 處理非結構化資料,資料常為自由文字 知識探勘步驟與技術 步驟: 資料蒐集 資料清理 資料轉換 探勘技術運用 結果呈現與解讀 技術: 關聯分析(association) 分類(classification) 歸類(clustering) 概略化(generation) 預測(prediction) 序列分析(sequence analysis) 特徵詞彙擷取 索引與檢索 摘要(summarization) 資訊組織與主題分析 資訊組織與主題分析的技術內容 資訊檢索 權威控制 詞彙關聯 內容摘要 主題歸類 文件分類 圖書館學較重視標準化的作業與架構 資訊科技較重視自動化技術的運用 索引典自動建構:前言 檢索失敗的主要因素之一:「字彙不匹配問題」 「查詢詞」與「索引詞」不相同的情況 例:「筆記型電腦」與「筆記本電腦」,「行政院長」與「閣揆」 改進方法:「查詢擴展」、「權威檔」、「索引典」 「查詢擴展」(query expansion) 加入更多與查詢主題相關的詞彙,或更改查詢詞的權重 「權威檔」 (authority file) 記錄及解決同義異名詞的工具 索引或檢索時,將各種同義異名詞對應起來,視為相同的詞彙處理 索引典自動建構:前言 「索引典」 (thesaurus) 除同義詞外,還有紀錄廣義詞、狹義詞、反義詞、、相關詞等 列舉主題詞彙,將詞彙間的語意或主題關係標示出來的知識庫 查詢時,可互相推薦,以擴展或縮小查詢範圍,或提示相關概念的不同查詢用語 例「攜帶型電腦」:「筆記型電腦」、「掌上型電腦」 使檢索從「字串比對層次」,提升到「語意比對層次」 人工製作索引典,準確度高,但召回率低、成本大、建構速度慢、事先選用的詞彙可能與後續或其他新進的文件無關 一般目的索引典運用在特定領域的文件檢索上,無法提升檢索效能 針對每一種文獻領域製作索引典,耗時費力 索引典自動建構:前言 「共現索引典」(co-occurrence thesaurus) 利用詞彙的「共現性」,自動建構「詞彙關聯」(term association) 或稱「關聯詞庫」 成本低、建構速度快、召回率高、與館藏文件用詞一致,但準確率低 詞彙關係:主題相關,不一定語意相關 例:「李登輝」與「康乃爾」、「中華電訊」與「ADSL」 研究方法 文獻探討、技術瞭解、優缺點分析、適用範圍分析 歸納重點 提出改進方法 實驗測試 成效比較 不同研究之間的比較 同一研究內,對照組之比較 提出適用情況與應用方向 持續評估與改進 相關研究:Salton ’89 Salton 曾提出建構共現索引典的架構: 算出各個詞彙間的相似度 「相似度」:詞彙在各文件之間,共同出現的情形(或主題相似度) 重要的索引詞彙,任兩詞彙皆拿來比對相似度 計算量至少 M2,M :所有重要詞彙的個數 依此相似度將詞彙歸類成「索引典類別」( thesaurus classes )(或「主題類別」) 相關研究:Salton ’89 歸類方式,主要有: Complete-link: 一開始,每個詞彙(元素),都單獨視為一類 兩個類別之間的相似度,若超過某個門檻值,就結合並歸成同一類,如此重複歸類 兩個類別之間的相似度,定義為跨類別元素之間相似度最低者 易產生多數個索引典類別(thesaurus class),但每類僅有少數個詞彙 Single-link: 同上述作法,但兩個類別之間的相似度,定義為跨類別元素之間相似度最高者 易產生少數個類別,但每類都有大量的詞彙 透過共現索引典的查詢擴展,檢索成效的召回率,通常可提升 10% 至 20% 小結: 歸類運算量太大,運用在大量文件上,耗時長久 相關研究: Chen ’96 相關研究: Chen (JASIS ’95) 定義非對稱的詞彙相似度 詞彙 Tj 在文件 i 中的權重: 詞彙 Tj 及 Tk 在文件 i 中的權重: Cluster_weight(Tj, Tk) Cluster_weight(Tk, Tj) 若Tj =「Artificial Intelligen
您可能关注的文档
- 首批重点监管的危险化学品安全措施和.doc
- 首饰200问.doc
- 首饰压光专项能力技能鉴定考核大纲.doc
- 首页考录动态考录公示政策法规职位查询网站留言常见问.doc
- 首台(套)重大技术装备推广应用指导目录.doc
- 授导型教案《狐狸与乌鸦》.ppt
- 授导型教案设计.doc
- 授课-1创建自由表.ppt
- 授课教师付环林.ppt
- 授课教师教授李仁淼.ppt
- 非常简单的租赁合同5篇.docx
- 教科版(2017)小学科学六年级下册-变化中伴随的现象.pptx
- 第2单元1我们的身体 课件-教科版科学一年级上册(2024).pptx
- 第2单元3游戏中的观察 课件-教科版科学一年级上册(2024).pptx
- 第1单元1我们知道的植物 课件-教科版科学一年级上册(2024).pptx
- 第1单元3植物长在哪里 课件-教科版科学一年级上册(2024).pptx
- 第2单元5通过感官来发现 课件-教科版科学一年级上册(2024).pptx
- 部编版道德与法治(2024)一年级上册-我们小点儿声.pptx
- 第2单元6观察与比较 课件-教科版科学一年级上册(2024).pptx
- 第1单元4给植物画张“像” 课件-教科版科学一年级上册(2024).pptx
文档评论(0)