中华大学资讯管理学系系统开发专题报告.doc

下载文档

1
0
约4.91千字
约 6页
2017-02-10 发布于重庆
举报
版权申诉
保障服务

中华大学资讯管理学系系统开发专题报告.doc

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中华大学资讯管理学系系统开发专题报告

中華大學資訊管理學系系統開發專題報告 Frequently Asked Questions Information system for AIFU Company 專題組員：指導老師：教授專題編號：PRJ-2007-01-0001執行期間：9 年月至 9 年月摘要關鍵詞：。然而，有參考價值的資訊，如果沒有加以適當的整合，系統將無法擷取符合使用者需求的相關資訊。因此，我們開發了一套資訊檢索系統，來整合相關資訊，並提供使用者精確度高的資訊查詢，達到使用者快速取得資訊的便利。網際網路迅速地發展，網路資訊的檢索系統雖提供大量資料給使用者，但使用者卻必須花更多的時間來選取資料。對於網際網路繁多且複雜的資訊量，如何有效地整合其中蘊含的資訊，並從中萃取對於使用者有用的知識，是目前十分迫切的需求。有鑑於此，我們開發了此系統，並且依循文章關連的類別來收尋相關資訊；除此之外，加強使用者介面的開發，讓使用者能快速簡易搜尋相關資訊，進而達成即時而快速的資訊檢索服務。研製背景開發目標目標：CKIP對文章進行斷詞。 TFIFD演算法: 利用TFIDF找出重要的特徵詞。資訊檢索: 使用者輸入想查詢的關鍵字，系統針對其關鍵字搜尋出相關文章。知識地圖: 使用者輸入想查詢的關鍵字後，系統搜尋出以知識地圖方式呈現，給使用者更容易查詢相關文章。使用者回饋:可以讓使用者，在查詢文章之後瀏覽的過程，可以將文章作評分的動作，系統重新計算關聯度，使系統能有更精確的搜尋。使用者書籤:儲存使用者所查詢過的文章，依喜好選擇保留或刪除。 2.3 主要預期效益 3. 專題進行方式meeting中修正各種錯誤和持續的進行開發進度。 3.1 人員配置與職責人員工作與職責系統分析 CKIP連結演算法資料庫設計楊正國系統設計文件製作資料庫設計朱奐全系統分析文件製作網頁撰寫 3.2 時程規劃時間工作項目 02/01~03/09 1. 了解資訊檢索的概念學習開發工具 03/10~03/31 系統分析與設計階段 1. 開始構想系統雛形 04/09~05/11 1. 整個時程規劃 05/12~06/30 系統分析與設計設計整體架構圖規劃DFD圖與分析期末口頭報告與書面準備 07/01~09/30 製作階段前端介面設計，撰寫後端程式功能撰寫資料庫設計 10/01~10/14 除錯與評估 1. 進行程式除錯，修改 10/15~10/31 系統線上操作調整六頁合集 11/01~11/15 技術文件撰寫系統文件與設計文件修改 11/16~11/21 文件修改撰寫使用者說明書系統維護 11/22~11/25 練習上台報告準備專題報告 11/26~11/30 1. 期末專題發表系統分析與設計摘要系統功能與特色(1) 線上斷詞 (CKIP) 透過遠端連線到中研院的線上斷詞(CKIP)系統，將抓取下來的文章內文做斷詞的動作，並且合併詞性；再將常出現的字及標點符號過濾掉，例如：的、你、我還有他…等等。方便後面的演算法進行計算。利用(CKIP)的斷詞功能，可以不必耗費時間及人力來建置字典的功能，只要將斷詞的結果和相關的關鍵字詞做比對，更能節省搜尋的時間，提高搜尋的速度。 (2) 演算法 TFIDF TF字詞頻率 (term frequency) ：指某一字詞出現在文件或資訊內容的相對頻率，用以測量該字詞在文件中的相對重要性，當出現頻率愈高則代表該字詞對該文件愈重要，愈能代表該文件特徵的關鍵字。 IDF反文件頻率 (inverse document frequency)：指某一字詞出現在其他文章或資訊內容之倒數。若某一字詞出現在其他文件的頻率很少，則 IDF的值愈高，即代表此字詞愈適合被用來區別與其他文件的不同。TFIDF是依據斷詞系統(CKIP)後的結果，經過一連串的『資訊檢索』公式選出特徵詞做為計算TFIDF根據。TFIDF的公式如 Term Frequency(TF)文件頻率: 計算單字(詞)在文件內出現的頻率 (1) 代表單字(詞) j在文件i的出現頻率，其中表單字(詞) nj 在文件i的出現次數，nall 表文件i中所有具有意義的總詞類。Inverse Document Frequency(IDF)文件頻率的倒數: (2) 代表單字(詞)j在所有文件裡出現頻率的倒數，其中N表所有文件的總數，表單字(詞)j有出現過的文章總數。當上面兩式相乘積即表示修正過後的關鍵詞Tj在文件Di的權重值(Weight)，公式如下