《第三章》.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《第三章》.ppt

第三章 计算机信息检索的 基本原理 第三章 计算机信息检索的 基本原理 §3.1 计算机信息检索概况 §3.2 机读数据库 §3.3 计算机信息检索原理 §3.4 计算机信息检索的基本     程序与策略 §3.1 计算机信息检索概况-1 一、计算机信息检索的定义与类型 定义 计算机信息检索是指利用计算机进行信息存贮和检索的过程。 计算机信息检索系统由三部分组成:   ① 计算机硬件 ② 计算机软件 ③数据库 类型 可从不同角度分类,一般按检索系统的工作方式划分① 脱机检索 ② 联机检索   ③ 光盘检索 ④网络检索 二、计算机信息检索的发展 国外计算机检索的发展 我国计算机信息检索的发展 §3.1 计算机信息检索概况-2 三、计算机信息检索的特点 ①操作简便、检索速度快 ②检索范围广 ③检索信息新    ④检索不受时空的限制  ⑤检索功能完善 ⑥检索结果的输出方式丰富多样 四、计算机信息检索的作用 ① 了解已有的研究成果,避免科研工作中的重复劳动,为研究工作(包括可行性研究)提供有关研究课题的发展现状和发展动向 ② 为编制科技发展规划和决策论证以及撰写论文,编制可行性报告提供参考资料。 ③ 提供世界经济统计数据,便于用户了解世界经济形势,预测经济发展趋势。 ④ 提供各国有关的市场信息,包括进出口情况、价格、销售、利润等方面数据,从而为工业生产和贸易等部门提供准确的依据。  §3.2 数据库 3.2.1、数据库的定义和类型 1.数据库的定义:数据库是指至少由—种文档(file)组成,能满足特定的或特定功能数据处理系统需要的数据集合。 2. 数据库的类型 (1)参考数据库是指用户从中获取信息线索后,还需要进一步查找原文或其他资料的一类数据库。它包括书目数据库和指南数据库。 ① 书目数据库(Database),又可称为二次文献数据库,包括机读版的文摘、索引、目录等  ② 指南型数据库 (Directorty Database) 是存储能够提供用户参考、给予用户指南的各类信息,如商业、企业等机构名称、地址电话、人物、出版物、项目、程序、活动等简要描述性的一类数据库,亦称指示性数据库。 (2) 源数据库是指用来存储事实、数值、概念、图形等非文献数据的数据库。能够直接为用户提供原始资料或具体数据的一类数据库。 包括全文数据库,数值型数据库、术语型数据库、图像数据库、超文本数据库、新闻数据库 (3) 混合型数据库是兼有参考数据库和源数据库特点的一类数据库,多媒体数据库(Multimedia Database)就属于这一类。它是存贮声音、图像、文字、动画等多媒体信息的数据库。              数据库的形成过程 3.2.2、数据库的构成 数据库由文档(File)构成,文档又由一个个记录组成。 每一个记录就是按标准化著录的一篇文献或文摘。记录中的每一著录项目称为字段, 如文摘号(AN)、篇名(TI)、著者(AU) 组成记录的每一个字段均可作为检索途径,字段中的第一个词和代码可作为检索入口。 数据库的文档结构 文档:将一批相关的文献记录输入计算机,并存储起来,就形成了有序的可供检索的文档(File) 文档结构:文献记录在文档中的组织排列。分为:顺排文档,倒排文档。 顺排文档                  以文献记录输入的顺序(即文摘序号)排列文档。 倒排文档                  它是把顺排文档中标引词抽出,以标引词的字母顺序依次排列而形成的文档。 记录 记录是文档的基本单元。它是对某一实体的全部属性进行描述的结果。记录格式有: ①固定格式,固定长字段。 固定格式是指每一条记录中的字段(著录事项)数量和种类不变以及字段排列的次序固定不变。 固定长字段是指每条记录中的字段长度(即字符数)都是一样的,固定不变。 ②固定格式,可变长字段 可变长字段是指每条记录中的字段长度(即字符数)可以是不一样的,不是固定不变的。 ③可变格式,可变长字段 可变格式是指每一条记录中的字段(著录事项)数量和种类是可变的,及字段排列的次序也是可变的。 字段 字段是记录的基本单元。它是对实体的全部属性进行描述的结果。在各类数据库中字段的内容是不相同的。一般字段与信息的著录项目相对应。如在OPAC中,记录中含有题名、著者、出版年、主题词、文摘等字段。别外,根据与文献内容相关与否,信息数据库的字段通常分为基本字段和辅助字段两类。见表3.2-4。 §3.3 计算机信息检索原理 3.3.1、计算机信息检索原理-1 §3.3 计算机信息检索原理 3.3.1、计算机信息检索原理-2 3.3.1、计算机信息检索原理-3 检索词与标引词之间相似性运算的方法可分为

文档评论(0)

jykt + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档