第四章文本处理技术试题.ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * 中文词法分析—歧义词切分 两种歧义结构 交集型歧义字段 研究生命的起源 研究/ 生命/ 的/ 起源 研究生/ 命/ 的/ 起源/ 组合型歧义字段 他从马上下来 他/ 从/ 马/ 上/ 下来/ 他/ 从/ 马上/ 下来/ 中文词法分析—未登录词识别 未登录词:未在词表中出现的词 人名、地名、机构名、时间、新词…… 歧义问题 “张朝阳”,“王国维” “邓颖超生前珍藏的书画作品” 未登录词的用字同正常用字混淆 “陈忠和率领的中国女排” “你到底是何居心” 中文词法分析—未登录词识别 解决策略 基于规则的方法 内部规律 中国人名:姓+名 地名:名+表示行政区的名称/自然地理实体的名称 外部规律 特定词语:人名+表明身份的称谓词 重复出现规律 基于统计的方法 中文分词系统实例—IRLAS 英文拼写检查——拼写错误 词语错误 Microsoft?- Mircosoft 语法错误 piece-peace 检索系统处理词语级拼写错误 为用户提供查询建议 英文拼写检查——拼写检查流程 形态还原 在词典中? N Y 正确 Word 在词典中? N Y 正确 相似度计算 修改建议 英文拼写检查——形态还原 形态还原 working, works, worked - work 去除词尾形态变化,还原为词的原形 原形≠词干 总结单词的形态变化规律,分别处理 动词的过去式、进行时、第三人称单数 名词的复数和所有格 形容词和副词比较级、最高级以及形容词转换为副词。 英文拼写检查——相似度计算 从词表中找出最相近的单词 距离越短,字符串越相近 计算字符串之间的相似程度 编辑距离:允许插入、删除和替代操作; 海明距离:只允许替代操作; Episode距离:只允许插入操作。 * * * * * * * * * * * * * * * * * * * * 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 第四章 文本预处理技术 语言问题 日语中同时使用多种类型的字母表 阿拉伯语通常从右到左书写,但是某些部分(如数字)是从左到右书写 ← → ← → ← 开始 ‘Algeria achieved its independence in 1962 after 132 years of French occupation.’ フォーチュン500社は情報不足のため時間あた$500K(約6,000万円) 片假名 平假名 汉字 罗马字母 英文词法分析 Tokenizer 词条流 Friends Romans Countrymen Linguistic modules 修改后的词条 friend roman countryman 待索引文档 Friends, Romans, countrymen. 词条化工具 语言分析工具 Indexer 倒排索引 friend roman countryman 2 4 2 13 16 1 英文词法分析 文档 重音符号或空格等 停用词 名词或词组 词干 自动或人工标引 结构识别 文本 结构 文本 +结构 全文本 标引词 文档逻辑视图:从全文文本到标引词集合 英文词法分析——断词(word tokeniztion) 断词也成为词条化 把文本字符序列转换为单词序列的过程 输入:Friends,Romans,Countrymen,lend me your ears; 输出:Friends Romans Countrymen lend me your ears 词条与词项 (Token VS Term) 对“to sleep perchance to dream”进行索引 词条为:to sleep perchance to dream 词项为: sleep perchance dream 断词——数字 考虑查询1978到1989年间车祸的死亡人数,数字不适合做标引词; 一些和字符组合的数字,如“510B.C.”,还有一些长数字,如身份证号、手机号,可能是非常好的标引词; 处理办法: 所有数字都去掉; 引入规则进行分析,包括对时间的识别和归一化,如:October 1978,Oct. 1978都要归一化成某个统一表。 断词——连字符 有些连字符中的词可以分开,如state-of-the-art变成

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档