中华大学资讯管理学系系统开发专题报告.doc

中华大学资讯管理学系系统开发专题报告.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中华大学资讯管理学系系统开发专题报告

中華大學資訊管理學系系統開發專題報告 Frequently Asked Questions Information system for AIFU Company 專題組員:指導老師:教授 專題編號:PRJ-2007-01-0001執行期間:9 年 月至 9 年 月 摘要關鍵詞:。 然而,有參考價值的資訊,如果沒有加以適當的整合,系統將無法擷取符合使用者需求的相關資訊。因此,我們開發了一套資訊檢索系統,來整合相關資訊,並提供使用者精確度高的資訊查詢,達到使用者快速取得資訊的便利。 網際網路迅速地發展,網路資訊的檢索系統雖提供大量資料給使用者,但使用者卻必須花更多的時間來選取資料。對於網際網路繁多且複雜的資訊量,如何有效地整合其中蘊含的資訊,並從中萃取對於使用者有用的知識,是目前十分迫切的需求。 有鑑於此,我們開發了此系統,並且依循文章關連的類別來收尋相關資訊;除此之外,加強使用者介面的開發,讓使用者能快速簡易搜尋相關資訊,進而達成即時而快速的資訊檢索服務。 研製背景 開發目標目標:CKIP對文章進行斷詞。 TFIFD演算法: 利用TFIDF找出重要的特徵詞。 資訊檢索: 使用者輸入想查詢的關鍵字,系統針對其關鍵字搜尋出相關文章。 知識地圖: 使用者輸入想查詢的關鍵字後,系統搜尋出以知識地圖方式呈現,給使用者更容易查詢相關文章。 使用者回饋:可以讓使用者,在查詢文章之後瀏覽的過程,可以將文章作評分的動作,系統重新計算關聯度,使系統能有更精確的搜尋。 使用者書籤:儲存使用者所查詢過的文章,依喜好選擇保留或刪除。 2.3 主要預期效益 3. 專題進行方式meeting中修正各種錯誤和持續的進行開發進度。 3.1 人員配置與職責人 員 工作與職責 系統分析 CKIP連結 演算法 資料庫設計 楊正國 系統設計 文件製作 資料庫設計 朱奐全 系統分析 文件製作 網頁撰寫 3.2 時程規劃時間 工作項目 02/01~03/09 1. 了解資訊檢索的概念學習開發工具 03/10~03/31 系統分析與設計階段 1. 開始構想系統雛形 04/09~05/11 1. 整個時程規劃 05/12~06/30 系統分析與設計 設計整體架構圖 規劃DFD圖與分析 期末口頭報告與書面準備 07/01~09/30 製作階段 前端介面設計,撰寫 後端程式功能撰寫 資料庫設計 10/01~10/14 除錯與評估 1. 進行程式除錯,修改 10/15~10/31 系統線上操作 調整六頁合集 11/01~11/15 技術文件撰寫 系統文件與設計文件修改 11/16~11/21 文件修改 撰寫使用者說明書 系統維護 11/22~11/25 練習上台報告 準備專題報告 11/26~11/30 1. 期末專題發表 系統分析與設計摘要系統功能與特色(1) 線上斷詞 (CKIP) 透過遠端連線到中研院的線上斷詞(CKIP)系統,將抓取下來的文章內文做斷詞的動作,並且合併詞性;再將常出現的字及標點符號過濾掉,例如:的、你、我還有他…等等。方便後面的演算法進行計算。 利用(CKIP)的斷詞功能,可以不必耗費時間及人力來建置字典的功能,只要將斷詞的結果和相關的關鍵字詞做比對,更能節省搜尋的時間,提高搜尋的速度。 (2) 演算法 TFIDF TF字詞頻率 (term frequency) :指某一字詞出現在文件或資訊內容的相對頻率,用以測量該字詞在文件中的相對重要性,當出現頻率愈高則代表該字詞對該文件愈重要,愈能代表該文件特徵的關鍵字。 IDF反文件頻率 (inverse document frequency):指某一字詞出現在其他文章或資訊內容之倒數。若某一字詞出現在其他文件的頻率很少,則 IDF的值愈高,即代表此字詞愈適合被用來區別與其他文件的不同。TFIDF是依據斷詞系統(CKIP)後的結果,經過一連串的『資訊檢索』公式選出特徵詞做為計算TFIDF根據。TFIDF的公式如 Term Frequency(TF)文件頻率: 計算單字(詞)在文件內出現的頻率 (1) 代表單字(詞) j在文件i的出現頻率,其中表單字(詞) nj 在文件i的出現次數,nall 表文件i中所有具有意義的總詞類。Inverse Document Frequency(IDF)文件頻率的倒數: (2) 代表單字(詞)j在所有文件裡出現頻率的倒數,其中N表所有文件的總數, 表單字(詞)j有出現過的文章總數。 當上面兩式相乘積即表示修正過後的關鍵詞Tj在文件Di的權重值(Weight),公式如下

您可能关注的文档

文档评论(0)

wuailuo + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档