第二章 信息检索基本原理.ppt

  1. 1、本文档共323页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 信息检索基本原理

第二章 信息检索基本原理 内 容 信息检索基础 信息检索语言 信息的组织 信息自动标引 文本分类与聚类 信息检索基础 信息检索的类型 按信息检索内容划分 数据信息检索 事实信息检索 文献信息检索 按信息组织方式划分 全文检索 超文本检索 超媒体检索 按信息检索手段划分 手工检索 机器检索 信息检索语言 检索语言:是信息存储和检索过程中,用于描述检索系统中信息的内部及外部特征(信息存储过程)和表达用户信息提问(信息索取过程)的一种专门语言。 检索语言是文献的标识系统。它的基本成分是“检索词”,如各种分类法`主题词表、书名、人名等。 检索语言的作用:文献的存贮和检索过程实现表达方式上的同一,保证人们正确和高效地进行文献检索。 检索语言的分类 按人工干涉程度划分(规范化程度):人工语言(受控语言)和自然语言(非受控语言) 按描述信息的特征:外表特征语言和内容特征语言 按内容性质:主题语言和分类语言 按组配方式:先组式检索语言和后组式检索语言 根据描述信息的特征划分 分类检索语言 古代分类语言 七分类 四部分类法:《四库全书》的四部分类最为经典。其将文献划分为经部、史部、子部和集部,其中医学类入子部的医家部分 当代分类语言 按知识的学科属性,运用逻辑分类的原理将学科概念作多层次划分,形成一个能充分体现事物的隶属、平等、派生关系的严格、有序的线性知识门类的等级制体系。 根据文献内容的学科属性,从知识分类的角度来揭示各类文献的特点和联系,使大量的文献 按 “类 ” 排列 集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。 分类语言的特点 优点 (1)从学科知识分类角度组织文献,便于族性检索 (2)便于文献的组织管理,可以用于图书、期刊排架和数据库中文献标引归类 (3)概念之间有从属、派生、相关关系,具有等级结构便于检索文献时概念切换,利于文献检索时的放大和缩小 (4)用分类号做检索标识,不存在文种的限制。 缺点 (1)分类体系及内容一般相对稳定,对于新兴学科而言,不利于采用此种方法检索 (2)分类语言是根据学科进行分类排序的,不利于交叉学科的检索 (3)隶属于一个门类下,会造成漏检。 较权威的分类语言 杜威十进分类法(Dewey decimal Classification system)DDC 国际十进分类法或通用十进制图书分类法(Universal Decimal Classification)UDC 冒号分类法 (Colon Classification)CC 美国国会图书馆分类法(Library of Congress Classification)LC 中国图书馆图书分类法(重点掌握) 杜威十进分类法 美国M.杜威编制的综合性等级列举式分类法。英文简称DC或DDC。 有详、简两个版本。详本于 1876年出第一版,1996年已出21版。简本篇幅约为详本的10%,主要供中、小型图书馆使用。1894年首次出版,已出13版。 详本共分四卷:卷一为编制说明和通用复分表、卷二和卷三都是类表,卷四为索引和使用手册。 主要由:主表、附表、索引和使用说明组成。 主表是以学科为中心对已知主题进行详细列举,其每一级类目都包含9个类和1个总类,共10个类。 附表主是指一些复分表:①标准复分表,②地区复分表,③文学复分表,④语言复分表,⑤人种、种族、民族复分表,⑥语种复分表,⑦人物复分表。 杜威十进分类法 采用阿拉伯数字作标记符号,并采用小数制(即十进制)的层累标记制。 以三位数(000~999)形成前三级的等级结构。在三位数中,凡带“0” 的号码均表示总论性类目:后二位为“0” 的号码表示一级类(大类),末一位为“0” 的号码表示二级类,凡末尾不带“0” 的三位数号码均属三级类。凡在三位数之后展开的号码,均须在三位数后面加一小数点隔开。 例:600 应用科学 630  农业 631   农业经营 631.5   作物栽培 杜威十进分类法 特点 ①体系结构完整、严谨,类目详尽,层次清楚,易于理解,便于按学科进行检索。 ②采用严格的层累标记制,类号等级分明,具有较强的助记性,但有时号码过于冗长。 ③首创仿分、复分等具有组配性质的编号法。 ④最先为分类表编配详细的相关索引,提供一条简便的字顺检索的途径。 ⑤拥有实力雄厚的管理机构,定期修订,使分类法不断得到更新。 ⑤用简明的号码标记类目,便于图书排架、目录组织和检索。 国际十进分类法 是一种列举—组配相结合的分类法。 由比利时人P.-M.-G.奥特莱和H.-M.拉封丹在《杜威十进分类法》第6版的基础上编成。 共分4种版本,即完全版、 中型版、节略版和

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档