第6章信息组织中的自然语言应用.ppt

  1. 1、本文档共83页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章信息组织中的自然语言应用.ppt

第6章 信息组织中的自然语言应用 第6章 信息组织中的自然语言应用 00012,1 1 自 00012,5 1 语 00012,7 1 言 00001,3 1 息 00012,11 00001,13 2 索 00012,3 1 然 00012,9 00001,11 2 检 00001,5 1 传 00001,7 1 播 记录号与位置集合 记录数 标引词 单字索引文档结构 00001 信息传播与检索;000012 自然语言检索 6.2 自然语言标引 自然语言标引方式 ③ 单汉字索引 单汉字索引的优缺点 优点:绕开了汉语自动切分难题,不存在词典构造问题;对于新兴概念能即时处理,解决了汉语交集型字符串标引问题; 缺点:词汇控制负担转嫁给了用户;只能实现物理字面上的匹配运算,难以处理文本中隐含概念主题,无检索价值的虚词或分辨力差的常用字在索引中占很大比例;检索的后组方式导致其响应时间慢于其他方法;产生许多假组配现象,影响查准率 6.3 自然语言检索系统与自然语言检索 自然语言检索系统概述 自然语言检索系统就是指对文献作者或文献摘要的编写者原来使用的语言进行一定化的序化组织、处理并提供自然语言检索接口供用户查询使用的检索系统。 自然语言检索系统与受控词表检索系统相比,一个明显的优点就是自然语言检索能较好地对标引用语和检索用语进行相符性比较,促进信息检索的存储和检索一致性,即检索的专指度高。 基于不同的信息组织方式,相应的自然语言检索系统都能提供自然语言检索入口;从信息组织的角度分析,自然语言检索系统可以划分为:基于自然语言标引(主要是自动标引)的自然语言检索系统和基于文本全文索引的全文检索系统。 6.3 自然语言检索系统与自然语言检索 自然语言检索 所谓自然语言检索,目前还没有一个明确的定义,可以从三个方面界定。从检索语言来讲,自然语言检索就是指在为文本信息提供检索标识时,使用文献作者、文摘编写者原来所使用的语词或标引人员自拟的语词,而不是取自受控词表中的语词;从技术上讲,就是将自然语言处理技术应用于信息检索系统的信息组织、标引与输出;从用户方面讲,就是用自然语言作为提问输入的检索方式 6.3 自然语言检索系统与自然语言检索 自然语言检索 从用户输入检索词形式的角度区分,自然语言检索分为关键词检索和自然语言语句的提问式输入检索; (关键词检索是指用户提交的检索词是用户认为对表达其检索需求有至关重要的关键性语词;关键词检索可用在经自然语言标引组织的自然语言检索系统中,同时也是基于全文索引的全文检索系统中最重要的检索输入形式) 从检索内容或检索对象角度区分,自然语言检索分为基于自然语言标引的标引词检索(外部文献特征和内容特征,如作者姓名、出版机构、主题词或关键词、篇名)和全文检索(对文本全文检索) 6.3 自然语言检索系统与自然语言检索 全文检索 ① 全文检索的基本概念 全文检索系统是具有全文数据库,具有布尔逻辑检索、位置检索、字符串检索、截词检索、文本检索等功能,允许用户以自然语言检索,直接获得原文中的有关章节、段、句等信息的检索系统。 全文检索系统的特点为: 1)允许用户使用自然语言检索 2)允许用户从全文的任意章、节、句、字中检索 3)能直接获取原文 6.3 自然语言检索系统与自然语言检索 全文检索 ① 全文检索的基本概念 全文检索以全部文本信息作为检索对象,无需对文献进行标引即可实现检索,这是其与关键词检索的根本区别;可以以原文中任何一个有实际意义的字、词作为检索入口,而且得到的检索结果是源文献而不是文献线索。 6.3 自然语言检索系统与自然语言检索 全文检索 ② 全文检索的索引问题 1)单汉字索引方式 2)词索引方式(切分、分词词典) 3)N-Gram法 文本“元有哪些信誉好的足球投注网站引擎” 严重浪费 快 较差 较好 N-Gram 较小 快 好 较差 按词 浪费 海量数据慢 差 好 按字 索引空间 检索速度 查准率 查全率 方法 6.3 自然语言检索系统与自然语言检索 全文检索 ③ 中文信息索引的合理方式——字索引与词索引的组合方式 从全文检索性能和检索效果看,词索引+BI-Gram为最佳中文文本索引方式 首先采用基于词典的分词技术将汉语中常用词切分出来,在此基础上,对于那些没有出现在词典中的未登录词采用基于N-Gram的技术进行提取,这样,既可以大大减少N-Gram信息提取所需要处理的信息量,又可

文档评论(0)

书屋 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档