第八章 信息检索文本分类.ppt

  1. 1、本文档共133页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章 信息检索文本分类

Data Mining: Concepts and Techniques 信息检索中的文本分类 信息检索 Document Retrieval is defined as the maching of some stated user query against useful parts of free-text records. 用户眼中的信息检索 什么是 Information Retrieval? A person has a goal to accomplish: Find the nearest hotel/restaurant Write your research paper Keep informed about the cheapest Nokia mobile phone on the market Find a job Along the way, he needs to find information to accomplish the goal. IR engine is a tool to support searching. It’s important to make it effective, efficient, and flexible. System View What is Information Retrieval? IR is the study of Representation Storage Organization Access of information items articles, books, web pages, CDs, movies ... for people who are interesting in them. 信息检索 信息检索(information retrieval,IR),将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。 发展的几个阶段 手工检索(早期,情报检索) 穿孔卡片检索(1950s) 计算机检索(面向主题,1960s) 联机检索(1970s,1980s) Web检索(1990s) 处理的对象 非结构化数据 文本数据:新闻、科技论文等 网页:HTML、XML 多媒体数据:图像、视频、图形、音频 目前最主要的处理对象是互联网 信息检索系统的分类 Ad hoc retrieval (特别检索: 文档集合保持不变) Filtering(过滤: 用户需求不变) Ad hoc retrieval Filtering 信息检索 信息检索系统的组件 文本处理形成索引词 1、删除停用词 停用词(stop word),指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有“是”,“的”,“地”等。 2、Stemming(英文中提取词干) countries = country,interesting = interest 信息检索 3、中文分词 中文分词技术的研究,已经有几十年的历史了,在20世纪80年代,我国就有人开始研究如何用计算机来自动分词。如何让机器去识别语言中最小的语意单位,不是一件很容易的事情。 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个「充分大的」机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 信息检索 常用的几种机械分词方法如下: 正向最大匹配法(由左到右的方向); 逆向最大匹配法(由右到左的方向); 最少切分(使每一句中切出的词数最小)。 问题 歧义识别。 「化妆和服装」可以分成「化妆 和 服装」或者「化妆 和服 装」 新词识别。 信息检索 信息检索系统的组件 建倒排索引(Inverted File ) 每个文档都可以用一系列关键词来表示,从检索目的来说,这些关键词描述了文档的内容。只要找到文档,便可以找到文档中的关键词。 反过来,如果按关键词建立到文档的索引,便可以根据关键词快速地检索到相关文档。 信息检索 具体地,关键词被存储在索引文件(index file)中(比如,按字母顺序存储),对于每个关键词,都有一个指针链表,该表中的每个指针指向与该关键词相关的某个文档,所有指针链表构成置入文件(posting file)。 这种倒排文件的方法几乎被当前所有的商用IR系统所采用。 信息检索

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档