- 1、本文档共136页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
32 字串图形结构侦测方法 - 国立政治大学
國立政治大學資訊科學系
Department of Computer Science
National Chengchi University
碩士論文
Master’s Thesis
中文資訊擷取結果之錯誤偵測
Error Detection on Chinese Information Extraction Results
研 究 生:鄭雍瑋
指導教授:劉吉軒
中華民國九十五年七月
July 2006
中文資訊擷取結果之錯誤偵測
Error Detection on Chinese Information Extraction Results
研 究 生 :鄭 雍 瑋 Student : Yung-Wei Cheng
指 導 教 授 :劉 吉 軒 Advisors : Jyi-Shane Liu
國 立 政 治 大 學
資 訊 科 學 系
碩 士 論 文
A Thesis
Submitted to Department of Computer Science
National Chengchi University
In partial fulfillment of the Requirements
for the Degree of
Master
in
Computer Science
中華民國 九十五 年 七 月
July 2006
中文資訊擷取結果之錯誤偵測
摘 要
資訊擷取是從自然語言文本中辨識出特定的主題或事件的描述,進而萃取出相關主題或事件元素中的對應資訊,再將其擷取之結果至資料庫中,便能將自然語言文件轉換成結構化的核心資訊。然而資訊擷取技術結果會有錯誤情況發生,若單只依靠人工檢查及更正錯誤的方式進行,將會是耗費人力及時間的工作。在本研究論文中,我們提出字串特徵值實驗結果顯示Chinese Information Extraction Results
Abstract
Given a targeted subject and a text collection, information extraction techniques provide the capability to populate a database in which each record entry is a subject instance documented in the text collection. However, even with the state-of-the-art IE techniques, IE task results are expected to contain errors. Manual error detection and correction are labor intensive and time consuming. This validation cost remains a major obstacle to actual deployment of practical IE applications with high validity requirement.
In this paper, we propose string graph structure and string feature-based methods. The former takes advantage of graph structure to compare characters and the relation between characters. Next step, we count the corresponding score via formula, and then the scores are takes to estimate the data correctness. The latter uses string features to describe a certain characteristics of each string, after that decision tree is generated by the C4.5 and SVM machine learning algorithms. And then classify the data is valid or not. These two detection methods have the ability to describe the feature of data and verify the correctness
您可能关注的文档
- 12 语料统计分析法之例证及其警务应用古永昌邱昭章蔡昆泓.pdf
- 12u机箱视频矩阵参数 - 深圳东华盛业科技有限公司.doc
- 12秋第一次形考作业_0005 试卷总分:100 测试时间:0 单项选择题 多 .doc
- 12当代坏境问题的产生及其特点.ppt
- 13 - 德宏机构编制网.doc
- 13 附息国债01 发行定价分析.pdf
- 12月18日创新 提升 思考——2011年balis原文传递服务总结.ppt
- 14 概念模型设计.doc
- 14 版本思科身份服务引擎迁移工具指南 - cisco.pdf
- 14基本单位名录库调查统计报表制度 - 北京市统计局.pdf
- 2024-2025学年人教版小学数学四年级下册教学计划及进度表.docx
- 2024-2025学年北师大版小学数学二年级下册教学计划及进度表.docx
- 2024-2025学年人教版小学数学五年级下册教学计划及进度表.docx
- 2024-2025学年人教大同版(2024)小学英语三年级下册教学计划.docx
- 2024-2025学年人教精通版(三起)(2024)小学英语三年级下册教学计划.docx
- 2024-2025学年统编版初中道德与法治八年级下册教学计划及进度表.docx
- 2024-2025学年统编版(2024)初中道德与法治七年级下册教学计划及进度表.docx
- 2023-2024学年上海黄埔区中考二模综合测试(物理部分)试卷及答案.pdf
- 2024-2025学年外研版(三起)(2024)小学英语三年级下册教学计划及进度表.docx
- 2025届北京市北京第四中学高三冲刺模拟数学试卷含解析.doc
文档评论(0)