- 1、本文档共136页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
32 字串图形结构侦测方法 - 国立政治大学
國立政治大學資訊科學系
Department of Computer Science
National Chengchi University
碩士論文
Master’s Thesis
中文資訊擷取結果之錯誤偵測
Error Detection on Chinese Information Extraction Results
研 究 生:鄭雍瑋
指導教授:劉吉軒
中華民國九十五年七月
July 2006
中文資訊擷取結果之錯誤偵測
Error Detection on Chinese Information Extraction Results
研 究 生 :鄭 雍 瑋 Student : Yung-Wei Cheng
指 導 教 授 :劉 吉 軒 Advisors : Jyi-Shane Liu
國 立 政 治 大 學
資 訊 科 學 系
碩 士 論 文
A Thesis
Submitted to Department of Computer Science
National Chengchi University
In partial fulfillment of the Requirements
for the Degree of
Master
in
Computer Science
中華民國 九十五 年 七 月
July 2006
中文資訊擷取結果之錯誤偵測
摘 要
資訊擷取是從自然語言文本中辨識出特定的主題或事件的描述,進而萃取出相關主題或事件元素中的對應資訊,再將其擷取之結果至資料庫中,便能將自然語言文件轉換成結構化的核心資訊。然而資訊擷取技術結果會有錯誤情況發生,若單只依靠人工檢查及更正錯誤的方式進行,將會是耗費人力及時間的工作。在本研究論文中,我們提出字串特徵值實驗結果顯示Chinese Information Extraction Results
Abstract
Given a targeted subject and a text collection, information extraction techniques provide the capability to populate a database in which each record entry is a subject instance documented in the text collection. However, even with the state-of-the-art IE techniques, IE task results are expected to contain errors. Manual error detection and correction are labor intensive and time consuming. This validation cost remains a major obstacle to actual deployment of practical IE applications with high validity requirement.
In this paper, we propose string graph structure and string feature-based methods. The former takes advantage of graph structure to compare characters and the relation between characters. Next step, we count the corresponding score via formula, and then the scores are takes to estimate the data correctness. The latter uses string features to describe a certain characteristics of each string, after that decision tree is generated by the C4.5 and SVM machine learning algorithms. And then classify the data is valid or not. These two detection methods have the ability to describe the feature of data and verify the correctness
您可能关注的文档
- 12 语料统计分析法之例证及其警务应用古永昌邱昭章蔡昆泓.pdf
- 12u机箱视频矩阵参数 - 深圳东华盛业科技有限公司.doc
- 12秋第一次形考作业_0005 试卷总分:100 测试时间:0 单项选择题 多 .doc
- 12当代坏境问题的产生及其特点.ppt
- 13 - 德宏机构编制网.doc
- 13 附息国债01 发行定价分析.pdf
- 12月18日创新 提升 思考——2011年balis原文传递服务总结.ppt
- 14 概念模型设计.doc
- 14 版本思科身份服务引擎迁移工具指南 - cisco.pdf
- 14基本单位名录库调查统计报表制度 - 北京市统计局.pdf
- 场地脚手架工程施工方案(3篇).docx
- 2024年浙江省丽水市松阳县玉岩镇招聘社区工作者真题及参考答案详解一套.docx
- 2024年河南省郑州市惠济区古荥镇招聘社区工作者真题及答案详解一套.docx
- 2024年浙江省杭州市淳安县文昌镇招聘社区工作者真题及完整答案详解1套.docx
- 2024年浙江省台州市三门县小雄镇招聘社区工作者真题带答案详解.docx
- 2024年浙江省宁波市余姚市河姆渡镇招聘社区工作者真题及完整答案详解1套.docx
- 2024年浙江省丽水市景宁畲族自治县雁溪乡招聘社区工作者真题及答案详解一套.docx
- 2024年浙江省杭州市临安市板桥乡招聘社区工作者真题及答案详解一套.docx
- 2024年湖北省宜昌市点军区土城乡招聘社区工作者真题及答案详解一套.docx
- 2024年浙江省台州市路桥区桐屿街道招聘社区工作者真题附答案详解.docx
最近下载
- 2024–2025学年初升高语文无忧衔接及新课预习(全国)衔接点13 古诗阅读之思想情感突破(解析版).docx VIP
- 初二语文期中试卷.pdf VIP
- 2025年南阳师范学院招聘工作人员(硕士研究生)38名笔试模拟试题及答案解析.docx VIP
- 钢铁工业课题研究论文(五篇):中水处理技术中钢铁工业应用、钢铁工业的废水处理技术….doc VIP
- 近三年语文高考试卷分析.pdf VIP
- 生殖道支原体感染诊治中国专家共识(2025年版)解读PPT课件.pptx VIP
- 2025年南阳师范学院招聘工作人员(硕士研究生)38名笔试备考题库及答案解析.docx VIP
- 西大成人教育《土木工程制图》期末考试复习题及参考答案.doc VIP
- 2025西藏南阳师范学院招聘工作人员(硕士研究生)38人笔试参考题库附答案解析.docx VIP
- 全国第三届职业技能大赛(健康和社会照护项目)选拔赛理论考试题库(含答案).docx
文档评论(0)