第九章自动标引.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九章自动标引

第九章 自 动 标 引 自动标引 自动标引的定义及意义 自动标引的基本原理 自动标引的基本流程 自动分词 其他内容简介 自动标引的定义 自动标引(Automatic Indexing),又称计算机辅助标引(Computer Aided Indexing),是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。 换句话说,就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。 自动标引的定义 自动标引 自动主题标引 自动分类标引 自动主题标引关键在于:词语抽取;对所识别出的主题词进行优选,以最终产生能表达文献主题内容的标引词。 当前,各标引系统都在不同程度地使用计算机系统进行辅助标引。 自动标引的意义 1.适应信息资源快速增长的需要 加利福尼亚大学伯克利分校研究人员发现,仅1999-2002年的三年中,全球新生产出的信息量就翻了一番。新产生的信息中92%记录在硬盘等磁存储介质上。 信息资源的快速增长,造成信息相对过剩。只有提高信息组织的效率,才能摆脱信息相对过剩带来的困惑,因此信息标引显得非常重要。自动标引适应了这一需要。 自动标引的意义 2.相对手工标引存在很大优势,克服了手工标引难以克服的缺点。 与熟练标引人员相比,自动标引的准确性不如手工标引,但在其他指标方面自动标引具有无可比拟的优势: 处理能力强 处理速度快 成本低 一致性好,稳定性好 自动标引的意义 美国的Cleverton曾作过一些试验,结果:两组人员为同一主题编出的叙词表中词的同一率仅60%;两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右;两个在同一数据库中用同一检索系统检索同一问题的用户,检索出的结果同一率仅40%;两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。 自动标引的意义 自动标引不受标引人员状态和情绪的影响,稳定性好。美国学者伦兹作过两个试验,6名标引人员在不同时间标引同一文献,一致率为15.8%;由同一标引人员在不同时间标引同一文献,一致率为16.19%。采用计算机自动标引,无论何时对同一篇文献总能标引出相同的主题词。 自动标引的意义 美国学者Salton对受控人工标引系统MEDLARS和自动标引系统SMART做了一些比较,结论是:相对简单的自动文本分析系统在文献检索环境中产生的检索结果,其质量不亚于受控标引通常所能达到的水平。 自动标引的基本原理 目前研究的自动标引的方法很多,较典型的汉语自动标引方法:词典标引法、切分标引法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等。 根据自动标引采用的理论划分,自动标引的方法主要有3种:统计法、语言法、人工智能法。 自动标引的基本原理 统计法(Statistical Approach): 自动标引各种方法中历史最长的一种,也是目前较为成熟的一种方法。 理论基础是齐夫(Zipf)的省力法则(Principle of Least Effort)。 典型代表:词频加权方法,根据词的出现频率及出现位置等因素确定标引词。 自动标引的基本原理 语言法(Linguistic Approach): 通过对构成文献的自然语言的分析,利用一定算法产生标引词,是从语言学角度对自动标引方法的探索。 包括两种方法:句法分析、语义分析 学术界对语言法的自动标引颇有争议。但目前利用语义分析的自动标引研究还在不断升温。 自动标引的基本原理 人工智能法(Artificial Intelligence Approach,AI Approach): 让计算机从事标引工作中的脑力劳动,即让计算机模拟标引员完成标引文献的工作。 目前该方法已成为自动标引领域的热点问题,人工神经网络、遗传算法等方法的发展给自动标引增添了不少动力。不少学者认为,人工智能法代表着自动标引研究的未来。 自动标引的基本流程 确定标引源 输入标引源内容 预处理 分词处理 确定关键词 转换为受控词 给出主题标识符 确定标引源 即确定标引所依据的文献内容(标引源)。标引源的选择是影响标引质量的一个重要因素。 标题是自动标引的主要标引源,大多数研究是基于标题进行的。但仅以标题为标引源,信息量少,标引质量差,难以推广使用。 如果对全文进行扫描,则存在数据量大和截取词汇太多等问题,为标引带来许多杂音,影响标引质量和速度。 确定标引源 一般选择以下内容作为标引源: 1.标题:包括文章的主标题、章节标题、小结标题等。这是首选标引源。 2.文摘:较标题而言,信息量较大,一般能够完全反应文献讨论的主题,但仅利用文摘难以确定5-6个最重要的词。

文档评论(0)

ailuojue2 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档