网站大量收购闲置独家精品文档,联系QQ:2885784924

中文信息处理的应用.PPT

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文信息处理的应用

第四章 中文信息处理的应用 授课时间:2007年1月8号 授 课 人:徐艳华 教学目标 计算机情报检索的工作过程 计算机情报检索的类型 计算机辅助教学的类型 计算机辅助教学的基本理论 计算机辅助教学的优点 计算机辅助教学的工作原理 一、计算机情报检索的工作过程 情报检索是指按特定方式和特定需要贮存和查找知识信息的过程(information retrieval简称IR),采用计算机实现这一过程就叫计算机情报检索。计算机情报检索系统是建立在计算机技术、缩微存贮技术和高速通信技术基础上的,即利用计算机预先编制存储的情报文档,建立计算机情报中心的数据库,情报中心通过通信网络联结许多终端:检索者在各个终端上可以通过提问的方式,从文档中快速提取符合要求的情报,用打印或显示的方式提供给检索者。 计算机情报检索的工作过程: 1、标引加工 要让计算机记住文献资料,就要将所需要存储的图书、报刊、杂志的原文输入计算机,这种原始的文献就是所谓的一次情报。它们既是情报存贮的对象,又是情报检索的对象。但是,在存贮与检索之间,不是以一次情报的形式直接进行的,而是借助于二次情报。 所谓二次情报,是指文摘、索引、书目卡片等等。情报检索首先要查阅二次情报,才能检索到所需情报。 事实上,计算机情报检索与人工检索有着共同的基础,这就是两者都要从一次情报中提取二次情报,这个提取二次情报的过程就叫标引加工。标引加工是对一份文献书目及内容抽象、概括过程。计算机情报检索系统的文档相当于由众多书目卡片组成的卡片箱,而文档的一个记录正相当于一张卡片,在文档记录上存贮什么信息或在一张卡片上填写什么内容,这些也是标引加工所要考虑的问题。 2.文档编排 在情报检索中,独立的文献集合叫做一个文档,每一篇文献情报叫做一个记录。经过标引加工的“二次情报”的内容就成为一个个的文档、一个个的记录。这些文档通常储存在磁盘或光盘上。一个磁盘或一张光盘可以存储几万乃至几十万张表格或卡片的“二次情报”的内容。 3.检索服务 检索数据,即为用户提供的信息是数字、人名、地名和术语,检索时要查询数据资料档,并对提问输出答案。订票系统、电话查号系统、查户口地址、查化学结构式等都属于此类。 检索事实,即为用户提供的信息是各种事实,实际上也仍然是数据。但输入提问后,要由计算机对被检索的事实作某种逻辑推理,并进行比较、分析,然后再输出答案。 检索文献,即为用户提供的信息是文章标题、著作的各项目和关键词所组成的文献单元,需要检索的对象是文献资料。 二、计算机情报检索的类型 1、关键词检索 关键词(Key word)是从文献原文中挑选出来的,例如从论文的篇名书名中选出最能表示主题的词语。依靠关键词,我们就能很方便地查找到有关文献。现在,我们可以利用计算机自动地从文献中选取题内关关键词(KWIC, 即 Key word in content)关键词不是规范化的词,因此标引和检索用词都是自由的。 关键词检索的优缺点 关键词检索的优点是:系统占用空间小、标引灵活、检索快速、软件编程实现简单。 关键词检索的缺点是:与叙词检索相比,虽然关键词检索的标引难度和检索难度都比叙词检索大大降低,但它将关键词用于标引词(index word)必须原样照搬,不得改变,不得用它的同义形式(因此,关键词也称为文献语言或自然语言)。所以,关键词检索的查全率和查准率远不如叙词检索;与全文检索相比,关键词检索又增加了关健词的标引工作,信息入库滞后,检索的灵活和效用也远远落后。 2.叙词检索 为了提高情报检索的查全率,建档标引可采取各专业的标准术语,这就是“主题词标引法”。因为“主题词”也叫“叙词”(descriptor),这种检索方法称作叙词检索法。叙词检索也称受控检索,其检索入口就是上述文献中事先标引的叙词,叙词是从词义的关键词中归纳、提炼出来的,叙词是规范化的主题词,也就是规范的关键词。这样,用“计算机”作为主题词标引建档,实际上也包括了题名中虽然没有“计算机”这个词、却有其同义词(如“电脑”)的那些文献。所以,用主题词检索就不必进行同义词替换即可查全。 叙词检索的优缺点 叙词检索具有系统占用空间小、检索用词规范、响应速度快等特点。由于用词规范,既可使同类文献主题标引一致,又保证了检索用词与标引的一致,具有较高的查全率和查准率。但是,叙词检索人为地给文献附加叙词,作为检索标识也带来一些问题:首先是需要对文献进行叙词标引。目前机器自动标引技术尚未成熟,而人工标引工作量大、效率低、质量因人而异,致使文献人库慢、信息时效性差、检索效用低;其次是检索操作困难,庞大的叙词表和复杂的组配规则成为检索人员的沉重包袱;再次,新词检索也不尽理想。因此,叙词检

文档评论(0)

zhaoxiaoj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档