信息检索-04文本操作技术.pdf

  1. 1、本文档共84页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索-04文本操作技术

第4章 文本操作技术 主讲:张春元(信息学院213室) 联系电话 课程邮箱:haidair2009@126.com 密码:ir2009 提纲 4.1引言 4.1引言 4.2文本词汇基本特性 4.2文本词汇基本特性 4.3英文词法分析 4.3英文词法分析 4.4汉语文本词法分析 4.4汉语文本词法分析 4.5相关资源 4.5相关资源 4.6英文拼写检查 4.6英文拼写检查 海南大学信息学院张春元主讲 2009秋季 -2- 4.1引言 文本操作是指对文本文档进行预处理操作。 文本操作是指对文本文档进行预处理操作。 文本操作是信息检索、信息抽取、自然语言处理、机器 文本操作是信息检索、信息抽取、自然语言处理、机器 翻译等后续工作的基础。 翻译等后续工作的基础。 琐碎但重要 琐碎但重要 自然语言的复杂性和多样性,对文本进行预处理时 自然语言的复杂性和多样性,对文本进行预处理时 将面临各种意想不到的问题,费时费力 将面临各种意想不到的问题,费时费力 工程性强,许多商用系统都用到这项技术 工程性强,许多商用系统都用到这项技术 3 海南大学信息学院张春元主讲 2009秋季 -3- 4.1引言 你 你 道 道 道 道 知 知 知 知 不 不 不 不 我 我 你 你 道 道 道 道 知 知 知 知 知 知 不 不 我 我 你 你 道 道 道 道 知 知 我 我 海南大学信息学院张春元主讲 2009秋季 -4- 提纲 4.1引言 4.1引言 4.2文本词汇基本特性 4.2文本词汇基本特性 4.3英文词法分析 4.3英文词法分析 4.4汉语文本词法分析 4.4汉语文本词法分析 4.5相关资源 4.5相关资源 4.6英文拼写检查 4.6英文拼写检查 海南大学信息学院张春元主讲 2009秋季 -5- 4.2文本词汇基本特性 4.2.1 Zipf分布 4.2.1 Zipf分布 4.2.2 Heaps分布 4.2.2 Heaps分布 4.2.3 词分辨力 4.2.3 词分辨力 4.2.4 2-Poisson分布 4.2.4 2-Poisson分布 4.2.5 词的长度 4.2.5 词的长度 海南大学信息学院张春元主讲 2009秋季 -6- 4.2.1 Zipf分布(省力法则) 一篇文本文档中不同词的使用有什么特点,它们在文本文档中 出现的频率有没有一定的规律,其表现形式应是怎样? Zipf 定律较好地描述了词频与词序之间的关系:即将某一篇 较长的文本文档(约 5000 字以上)中每个词出现的频率按照递减 顺序排列起来(高频词在前,低频词在后),并用自然数给这些词 编上等级序号,频次最高的是 1 级,其次是 2 级,3 级…,这样一 直到D 级。如果用 r 表示词的频次排序等级序号,用f r 表示等级 为r 的词在文档中出现的频次,则有: f r C r 式中C 0 0.1 C N N 是一个参数,它的取值区间为: , 为文档拥有

您可能关注的文档

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档