媒资管理06-信息组织跟编目技术.ppt

  1. 1、本文档共97页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
媒资管理06-信息组织跟编目技术

§6.2 自动标引技术 以计算机自动处理为手段的信息组织自动化程度不断提高,具体表现在以下几个方面: 计算机辅助编制管理分类表和叙词表 电子版分类法和叙词表的研制 分类法和叙词表在联机检索和网络检索中的应用 自动标引和自动分类 自动文摘技术 信息抽取技术 §6.2 自动标引技术 自动标引(Automatic Indexing),又称计算机辅助标引(Computer Aided Indexing),是: 根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。 换句话说,就是: 利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。 按人工介入与否分为全自动标引与半自动标引。 按标引词来源分为自动抽词标引与自动赋词标引。 §6.2 自动标引技术 自动标引的意义 适应信息资源快速增长的需要 加利福尼亚大学伯克利分校研究人员发现,仅1999-2002年的三年中,全球新生产出的信息量就翻了一番。新产生的信息中92%记录在硬盘等磁存储介质上。 信息资源的快速增长,造成信息相对过剩。只有提高信息组织的效率,才能摆脱信息相对过剩带来的困惑,因此信息标引显得非常重要。自动标引适应了这一需要。 克服了手工标引难以克服的缺点。 与熟练标引人员相比,自动标引的准确性不如手工标引,但在其他指标方面自动标引具有无可比拟的优势: 处理能力强 处理速度快 成本低 一致性好,稳定性好 §6.2 自动标引技术 自动分类 自动分类标引就是由计算机代替人工,对网络信息进行分类,赋予其分类标识,以描述信息主题内容的过程。 自动抽词 自动抽词标引指使用计算机自动抽取文本资源中表达文献主题的语词作为检索标识。 自动赋词 自动赋词标引是在自动抽词的基础上,根据自然语言词语与检索词对应表,将关键词转换成检索词(规范词),建立倒排索引文档或编制书本式检索工具的工作 自动摘要 即利用计算机自动地从原始文献中提取文摘。 §6.2.1 自动分类 一般认为,信息资源分类就整体而言包括聚类和归类两个方面。 所谓聚类,是指按照信息资源的特点和使用需要,通过区分和类集建立起类目体系的过程; 所谓归类,是指依据建立的分类体系对信息资源进行组织的活动,一般是根据信息资源的特点,将其分门别类地归入该系统的相应类目,通过这一操作实现对信息资源的分类组织。 §6.2.1 自动分类 自动分类标引 自动分类标引就是由计算机代替人工对视音频信息进行分类,赋予其分类标识,以描述视音频信息主题内容的过程。先分析被分类的视音频对象的特征,然后将其与一个分类表或一个分类标准进行比较,最后将被分类的视音频对象划归为特征最相近的一类,并赋予相应的分类号。视音频信息的自动分类目前仍然建立在有文本的基础上的。自动分类一般经过如下几个过程: §6.2.2 自动抽词 自动抽词标引 自动抽词标引由计算机自动从文本中抽取词或短语来表达信息资源的主题内容。 在手工标引中,标引员一般会尽量选择那些能较好指示信息资源内容的词或短语作为标引词。影响选择时的因素有词语在信息资源中出现的频率、出现的位置、词语的语言环境等。 计算机要完成这项任务,某种程度上需要模拟人类的思维过程。 §6.2.2 自动抽词 1. 绝对频率加权法 基本思想是: 计算文献集合中每篇文献中每个不同的词出现的频率; 把每个不同的词在n篇文献中的出现频率相加,得到每个词的集合频率; 按集合频率递减排序,用试错法确定高频词和低频词的阀值,排除高于高频词阀值和低于低频词阀值的词; 对余下的中频词赋予较高权值作为标引词。 §6.2.2 自动抽词 绝对频率加权法的缺点 没有考虑选择作为标引词的术语对文献的区分性能。 当以一数据库为范围进行考察时,一些词语虽然在某一文献资源中经常出现,但同时也经常在整个数据库中出现,那么根据这一方法抽取出来的词可能无法很好的区分数据库中的不同文献。这些高频词可能并不具有检索意义,会降低文献的查准率。 例如:在政治新闻数据中,“中国”和“中共”出现的次数很多,但它们并不能很好的区分这个文本集合中的单个条目。而“信访调研”可能出现的次数很少,但它却比“中国”和“中共”这两个词更能区分文本集合中的不同文本。所以,它将是一个很具有检索价值的词。而在使用绝对频率法进行抽词标引时,“信访调研”因为在文本中出现的次数较少,而很有可能被遗漏。为了弥补绝对频率的这种不足,可以采用相对频率法。 §6.2.2 自动抽词 2. 相对频率加权法 基本思想: 在一般文献中不常出现的低频词取低值,在专业文献中频繁出现而在特定文献内以低频词出现的词取高值。 为此,首先要建立有关领域全部词汇的相对频率表; 其次,对待标引的文献进行处理,排除停用词,计算每个实词在特定文献中出现的频率; 最后,将每个实词在特定文献中出现的频率与相对频率进行比较。某

文档评论(0)

rachel + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档