第2章文本信息处理技术试题.ppt

  1. 1、本文档共93页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章 文本信息处理技术 第三章 文本信息处理技术 第一节 自动标引技术 一、自动标引的含义 1.自动标引的定义 文献标引:指对所收集的文献给出标识导引,这些标识包括文献标题、作者名、分类号和主题词等。 文献标引作业包括: 文献文本分析; 特征信息(主题词、关键词及其他标识)的提取与描述: 建立索引或倒排档。 自动标引(automatic indexing):“自动标引就是用机器抽取或赋予索引词,一旦编制好程序和规则,就不需要人工干预。” 一、自动标引的含义 2、自动标引的类型 从标引工作的自动化程度来说,自动标引分为: 全自动标引(automatic indexing); 半自动标引(机助标引:Automated indexing)。 半自动标引基本技术实现是: (1)文献纪录(题目等著录项目)键入终端后显示在荧光屏上; (2)操作人员移动光标从题目中抽取关键词; (3)利用人机对话方式输入与标题内容有关的隐含概念词,以保证主题标引的全面性;同时删除计算机程序错误组配的词。 (4)根据词库中的参照系统将关键词转换成标准主题词,进行上位登录。 词库是计算机辅助标引的核心。 从标引词的来源去划分,自动标引分为: 自动抽词标引; 自动赋词标引 一、自动标引的含义 (3)自动抽词标引(自由词标引) 定义:利用计算机直接从文献题名、文摘或正文中自动抽出能表达文献主题的词作为标引词,并自动生成关键词索引或倒排档。 类别: 主关键词标引:要求计算机从抽出的全部关键词中选出少量主要关键词做索引词。 全关键词标引:把除停用词以外的全部关键词抽出,直接做索引词。 抽词标引的标引词只能来源于文献本身的文内关键词,所以也称为自由词标引。 优点:无需主题切换,接近自然语言。 缺点: 标引用词不规范,影响查全率; 同义词检索降低系统的时间效率; 难以找出词和词之间的相互关系,很难进一步利用语义信息。 一、自动标引的含义 (4)自动赋词标引(受控词标引) 定义:让计算机模仿人的赋词标引方法,分析文献的内容,选取与文献主题相符或密切相关的语词符号作为索引词。 其标引词是由描述词组成的,这些词不一定来源于文献本身所用的词,而是选自预先编制的词表,所以叫受控词标引。 优点: 规范化用词 词表可以反映词的“类-属”关系。 缺点: 受控词标引往往有一定的标引误差; 词典面临老化的问题; 主题词表对用户来说往往是一个负担; 自动赋词标引是在自动抽词标引的基础上发展起来的。 最合理的标引方法:混合标引方法 二、自动标引的流程 在手工标引中,标引员的一般工作流程是: 阅读待标引文献 分析文献内容 提取文献主题概念 用语词符号或语句去表达主题概念 使表达规范化(转换为受控词) 编制索引款目 将全部索引款目汇集和编辑为索引或文档。 二、自动标引的流程 三、中文自动标引 1、汉语分词与中文自动标引 分词:就是把一个句子按照其中词的含义进行切分。 抽词:信息检索系统中所涉及的“分词” ——实际上是抽取代表主题概念的关键词。 目前比较常用的抽出自由词的方法有两种: 词典匹配标引法; 单汉字标引法。 词典匹配标引法的步骤: 利用停用词表将语句分为语句段(子字串); 利用主题词典(或关键词典)将语句段分为词; 三、中文自动标引 2.停用词表及其切分原理 (1)停用词及停用词表的概念 根据文本中词的检索意义,可以对它们做一个简单的分类: 检索词(检索入口词、入口词、标引词):表示具有检索意义的词,一般为实词(多数是名词、动词等)。 停用词(禁用词、非用词):在文本中没有检索意义的词,多是一些虚词(如介词、叹词、连词等)。 所谓停用词表,是一种特殊的词表,在这个词表中含有冠词、虚词、叹词、连词、介词以及语义泛泛的词等一切在上下文中没有检索意义的词。 三、中文自动标引 2.停用词表及其切分原理 (1)停用词及停用词表的概念 对于特定专业而言,可以将停用词表内部的词基本上可以分为两大类: 通用性较强的停用词; 通用性不强的停用词。 停用词的特点: 停用词语义变化不大, 数量小(1/10), 出现频率高 ; 停用词表的搜集要坚持完备性原则。 三、中文自动标引 2.停用词表及其切分原理 (2)利用停用词表的切分原理 利用停用词表进行切分的基本原理:把停用词表中的词与要进行切分的文本各字段(标题、文摘、全文等)依次进行匹配,当文本中经过这样的处理后,删除那些与停用词匹配成功的词,这样文本自然就被切分成若干段。 西文,切分以后的段就是检索入口词(标引词)。 中文:切分以后的段中包含着所有完整的词或词组。 使用停用词进行切分所完成的工作量大约占整个切分工作量的

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档