网站大量收购独家精品文档,联系QQ:2885784924

32 字串图形结构侦测方法 - 国立政治大学.doc

32 字串图形结构侦测方法 - 国立政治大学.doc

  1. 1、本文档共136页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
32 字串图形结构侦测方法 - 国立政治大学

國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis 中文資訊擷取結果之錯誤偵測 Error Detection on Chinese Information Extraction Results 研 究 生:鄭雍瑋 指導教授:劉吉軒 中華民國九十五年七月 July 2006 中文資訊擷取結果之錯誤偵測 Error Detection on Chinese Information Extraction Results 研 究 生 :鄭 雍 瑋 Student : Yung-Wei Cheng 指 導 教 授 :劉 吉 軒 Advisors : Jyi-Shane Liu 國 立 政 治 大 學 資 訊 科 學 系 碩 士 論 文 A Thesis Submitted to Department of Computer Science National Chengchi University In partial fulfillment of the Requirements for the Degree of Master in Computer Science 中華民國 九十五 年 七 月 July 2006 中文資訊擷取結果之錯誤偵測 摘 要 資訊擷取是從自然語言文本中辨識出特定的主題或事件的描述,進而萃取出相關主題或事件元素中的對應資訊,再將其擷取之結果至資料庫中,便能將自然語言文件轉換成結構化的核心資訊。然而資訊擷取技術結果會有錯誤情況發生,若單只依靠人工檢查及更正錯誤的方式進行,將會是耗費人力及時間的工作。在本研究論文中,我們提出字串特徵值實驗結果顯示Chinese Information Extraction Results Abstract Given a targeted subject and a text collection, information extraction techniques provide the capability to populate a database in which each record entry is a subject instance documented in the text collection. However, even with the state-of-the-art IE techniques, IE task results are expected to contain errors. Manual error detection and correction are labor intensive and time consuming. This validation cost remains a major obstacle to actual deployment of practical IE applications with high validity requirement. In this paper, we propose string graph structure and string feature-based methods. The former takes advantage of graph structure to compare characters and the relation between characters. Next step, we count the corresponding score via formula, and then the scores are takes to estimate the data correctness. The latter uses string features to describe a certain characteristics of each string, after that decision tree is generated by the C4.5 and SVM machine learning algorithms. And then classify the data is valid or not. These two detection methods have the ability to describe the feature of data and verify the correctness

您可能关注的文档

文档评论(0)

yanpizhuang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档