基于信息提取的面向行业应用的文本分类算法.ppt

基于信息提取的面向行业应用的文本分类算法.ppt

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于信息提取的面向行业应用的文本分类算法 郭 峰 兰州大学 信息科学与工程学院 2005年8月 提纲 背景介绍 课题来源 实现功能 整体流程 CIETC算法简介 相关数学定义 算法流程说明 总结 背景介绍 课题来源 对人名专用有哪些信誉好的足球投注网站引擎的需求 传统有哪些信誉好的足球投注网站引擎的不能解决的问题 更方便的查找 查找结果的分类 自然语义的提取 要求产品化 申请项目 甘肃省自然科学基金 背景介绍 实现功能 按人名的重要属性对有哪些信誉好的足球投注网站结果进行分类 背景介绍 整体流程 元有哪些信誉好的足球投注网站引擎的实现 分布式并行元有哪些信誉好的足球投注网站引擎的实现 信息提取和自然语意理解 CIETC算法 前台显示 CIETC算法简介 补偿式信息抽取的主题文本分类算法(compensated information extraction text classification,CIETC) 有指导的、不需要建立训练集的 通过信息抽取和文本聚类循环增加类的数目和类内项的 通过聚类补偿文本属性的一种文本分类算法 CIETC算法简介 相关数学定义 I/P :划分P ={A1,A2,…,Am} (Ai∈A,Ai∩Aj=null)构成了I的一个特定划分,记为I/P 。A是属性的集合 core(P ) :核知识 ,不可省略划分 文档D 是可区分的 : 对于主题文档D,AD={A1,A2,…,Am}是文档D 拥有的属性集,如果core(P ) ∈AD,则称文档D是可区分的。 CIETC算法简介 算法流程说明 1、选择主题属性 行业知识选择 通过信息熵,数据挖掘的决策树算法,取重要属性 H=-k∑i=1,nPi㏒2Pi, 2、初步文本分类 对所有测试文档U,以core(P )={职业,工作单位,出生年月}进行信息抽取。 将所有文档分为可辨分文档UIND和不可分辨文档UND 。 在信息抽取过程中构建了关于人名的core(P )属性抽取的句法,采用了中国科学院概率句法分析器ICTPROP和中国科学院freeICTCLAS词法分析器。 CIETC算法简介 算法流程说明 3、给每篇文档和类建立空间向量模型,用最邻近学习算法(nearest-neighbor learning algorithm)将UND聚到UIND/core(P )中去 CIETC算法简介 算法流程说明 4、通过类间最邻近算法提高文档的属性度 通过最邻近相似文本分类处理后,提升了一部分UND文档,还有一部分剩余UND未被处理,需要对其中可以提高信息度的文本补偿分类结果。 总结 本文使用信息抽取的方法对中文文本的分类进行了研究。实验结果显示,基于信息提取的面向行业应用的文本分类算法是一种非常有前途的分类器。如果将其应用于不同的行业,将会带来很大的社会效益。 信息抽取需要建立大量的句法模型及属性词库,如果句法模型不全,会导致测试结果相差较大,这些问题还有待进一步研究。 分类的速度有待提高,算法还可以优化 创新点:将信息提取应用于文本分类;通过核知识来对指导文本分类;通过分类补偿文本属性 谢 谢! 请各位专家批评指正! * * 人名 教师 兰州大学 艺术家 公务员 第四军医大 1997.4.5 1963.4.20 与北大名人系统的区别

文档评论(0)

wendan118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档