- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中华大学资讯管理学系系统开发专题报告
中華大學資訊管理學系系統開發專題報告
Frequently Asked Questions Information system for
AIFU Company
專題組員:指導老師:教授
專題編號:PRJ-2007-01-0001執行期間:9 年 月至 9 年 月
摘要關鍵詞:。
然而,有參考價值的資訊,如果沒有加以適當的整合,系統將無法擷取符合使用者需求的相關資訊。因此,我們開發了一套資訊檢索系統,來整合相關資訊,並提供使用者精確度高的資訊查詢,達到使用者快速取得資訊的便利。
網際網路迅速地發展,網路資訊的檢索系統雖提供大量資料給使用者,但使用者卻必須花更多的時間來選取資料。對於網際網路繁多且複雜的資訊量,如何有效地整合其中蘊含的資訊,並從中萃取對於使用者有用的知識,是目前十分迫切的需求。
有鑑於此,我們開發了此系統,並且依循文章關連的類別來收尋相關資訊;除此之外,加強使用者介面的開發,讓使用者能快速簡易搜尋相關資訊,進而達成即時而快速的資訊檢索服務。
研製背景
開發目標目標:CKIP對文章進行斷詞。
TFIFD演算法: 利用TFIDF找出重要的特徵詞。
資訊檢索: 使用者輸入想查詢的關鍵字,系統針對其關鍵字搜尋出相關文章。
知識地圖: 使用者輸入想查詢的關鍵字後,系統搜尋出以知識地圖方式呈現,給使用者更容易查詢相關文章。
使用者回饋:可以讓使用者,在查詢文章之後瀏覽的過程,可以將文章作評分的動作,系統重新計算關聯度,使系統能有更精確的搜尋。
使用者書籤:儲存使用者所查詢過的文章,依喜好選擇保留或刪除。
2.3 主要預期效益
3. 專題進行方式meeting中修正各種錯誤和持續的進行開發進度。
3.1 人員配置與職責人 員 工作與職責 系統分析
CKIP連結
演算法
資料庫設計 楊正國 系統設計
文件製作
資料庫設計 朱奐全 系統分析
文件製作
網頁撰寫 3.2 時程規劃時間 工作項目 02/01~03/09 1. 了解資訊檢索的概念學習開發工具 03/10~03/31
系統分析與設計階段 1. 開始構想系統雛形 04/09~05/11 1. 整個時程規劃 05/12~06/30 系統分析與設計
設計整體架構圖
規劃DFD圖與分析
期末口頭報告與書面準備 07/01~09/30
製作階段 前端介面設計,撰寫
後端程式功能撰寫
資料庫設計 10/01~10/14
除錯與評估 1. 進行程式除錯,修改 10/15~10/31 系統線上操作
調整六頁合集 11/01~11/15 技術文件撰寫
系統文件與設計文件修改 11/16~11/21 文件修改
撰寫使用者說明書
系統維護 11/22~11/25 練習上台報告
準備專題報告 11/26~11/30 1. 期末專題發表 系統分析與設計摘要系統功能與特色(1) 線上斷詞 (CKIP)
透過遠端連線到中研院的線上斷詞(CKIP)系統,將抓取下來的文章內文做斷詞的動作,並且合併詞性;再將常出現的字及標點符號過濾掉,例如:的、你、我還有他…等等。方便後面的演算法進行計算。
利用(CKIP)的斷詞功能,可以不必耗費時間及人力來建置字典的功能,只要將斷詞的結果和相關的關鍵字詞做比對,更能節省搜尋的時間,提高搜尋的速度。
(2) 演算法 TFIDF
TF字詞頻率 (term frequency) :指某一字詞出現在文件或資訊內容的相對頻率,用以測量該字詞在文件中的相對重要性,當出現頻率愈高則代表該字詞對該文件愈重要,愈能代表該文件特徵的關鍵字。
IDF反文件頻率 (inverse document frequency):指某一字詞出現在其他文章或資訊內容之倒數。若某一字詞出現在其他文件的頻率很少,則 IDF的值愈高,即代表此字詞愈適合被用來區別與其他文件的不同。TFIDF是依據斷詞系統(CKIP)後的結果,經過一連串的『資訊檢索』公式選出特徵詞做為計算TFIDF根據。TFIDF的公式如
Term Frequency(TF)文件頻率:
計算單字(詞)在文件內出現的頻率
(1)
代表單字(詞) j在文件i的出現頻率,其中表單字(詞) nj 在文件i的出現次數,nall 表文件i中所有具有意義的總詞類。Inverse Document Frequency(IDF)文件頻率的倒數:
(2)
代表單字(詞)j在所有文件裡出現頻率的倒數,其中N表所有文件的總數, 表單字(詞)j有出現過的文章總數。
當上面兩式相乘積即表示修正過後的關鍵詞Tj在文件Di的權重值(Weight),公式如下
您可能关注的文档
- 中医执业医师辨证治疗流行性喘憋型肺炎31例.doc
- 中医执业常见中医病证病机归纳.doc
- 中医护理学选择题及答案.doc
- 中医护理工作指南.doc
- 中医护理方案之腰椎间盘突出症.doc
- 中医拨经疗法治疗脑性瘫痪肘屈曲畸形疗效观察.doc
- 中医是如何治疗肝硬化的.doc
- 中医望诊-面相与疾病.doc
- 中医汗症的症状学鉴别与论治.doc
- 中医治疗心火肝火胃火肺火的方药.doc
- 专题06 经济体制(我国的社会主义市场经济体制)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题11 世界多极化与经济全球化-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 专题03 经济发展与社会进步-5年(2020-2024)高考1年模拟政治真题分类汇编(浙江专用)(解析版).docx
- 专题09 文化传承与文化创新-5年(2020-2024)高考1年模拟政治真题分类汇编(北京专用)(原卷版).docx
- 5年(2020-2024)高考政治真题分类汇编专题08 社会进步(我国的个人收入分配与社会保障)(原卷版).docx
- 专题07 探索世界与把握规律-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 5年(2020-2024)高考政治真题分类汇编专题06 经济体制(我国的社会主义市场经济体制)(原卷版).docx
- 专题11 全面依法治国(治国理政的基本方式、法治中国建设、全面推进依法治国的基本要求)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题17 区域联系与区域协调发展-【好题汇编】十年(2015-2024)高考地理真题分类汇编(解析版).docx
- 专题01 中国特色社会主义-5年(2020-2024)高考1年模拟政治真题分类汇编(原卷版).docx
最近下载
- 高同型半胱氨酸血症的诊断、治疗与预防专家共识.docx VIP
- 人教版高中英语必修第二册《UNIT 3 THE INTERNET》大单元整体教学设计.pdf
- 微型消防站工作职责(标准版).docx VIP
- 呼唤-快车上玩家地图1 plmap演示版.pdf
- 德邦零担业务诊断及新产品开发项目建议书-2014.pptx VIP
- 人教版高中英语必修第二册《UNIT 4 HISTORY AND TRADITIONS》大单元整体教学设计.docx
- 高同型半胱氨酸血症的诊断、治疗与预防.pptx VIP
- 附件2:汽车专访.pdf VIP
- 2024年食品安全生产经营大比武理论考试题库资料-下(多选、判断题汇总).pdf
- 快车上的恐怖旅行手册.pdf
文档评论(0)