- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章节数字信息资源处理
第4章 数字信息资源处理 教学目标 了解数字信息资源的有效处理是数字图书馆支撑技术之一 掌握相关信息资源处理所用到的技术,如: 信息资源描述技术 元数据技术 分词技术 文本分类技术 信息抽取技术及其具体技术 第4章 数字信息资源处理 教学要求 §4.1数字信息资源描述与组织 描述语言及其发展 Web实现了网页的连通,Web改变了人们学习与生活方式。HTML(超文本置标语言)技术拉近了Web与人们之间的距离,通过它很容易、方便地获得信息资源; HTML是SGML(Standard Generalized Markup Language,标准通用置标语言)的一个实例化的子集,可扩展性差,用户根本不能自定义有意义的置标供他人使用,这一切都成为Web技术进一步发展的障碍,在这种情况下XML顺应而生; 1969年,IBM公司就开发了一种文档描述语言GML用来解决不同系统中文档格式不同的问题,GML是IBM许多文档系统的基础,包括Script和Bookmaster,1986年该语言演变成一个国际标准(ISO8879),并被称为SGML; SGML是很多大型组织,比如飞机、汽车公司和军队的文档标准,它是语言无关的、结构化的、可扩展的语言,这些特点使它在很多公司受到欢迎,被用来创建、处理和发布大量的文本信息。 在1989年,在CERN欧洲粒子物理研究中心的研究人员开发了基于SGML的超文本版本,被称为HTML; HTML继承了SGML的许多重要的特点,比如结构化、实现独立和可描述性,但是同时它也存在很多缺陷:比如它只能使用固定的有限的标记,而且它只侧重于对内容的显示。同时随着Web上数据的增多,这些HTML存在的缺点就变的不可被忽略。 W3C提供了HTML的几个扩展用来解决这些问题,最后,它决定开发一个新的SGML的子集,称为XML; XML的出现就是为了解决HTML所存在的这些弊病。它保留了很多SGML标准的优点,但是更加容易操作和在WWW环境下实现,在1998年,它就变成了W3C的标准。 XML有如下几个优势: 它允许各个组织、个人建立适合自己需要的置标集合,并且这些置标可以迅速地投入使用。这一特征使得XML可以在电子商务、政府文档、司法、出版、CAD/CAM、保险机构、厂商和中介组织信息交换等领域中一展身手,针对不同的系统、厂商提供各具特色的独立解决方案; XML的数据存储格式不受显示格式的制约。一般来说,一篇文档包括三个要素:数据、结构以及显示方式。对于HTML来说,显示方式内嵌在数据中,这样在创建文本时,要时时考虑输出格式,如果因为需求不同而需要对同样的内容进行不同风格的显示时,要从头创建一个全新的文档,重复工作量很大。此外HTML缺乏对数据结构的描述,对于应用程序理解文档内容、抽取语义信息都有诸多不便。 §4.1数字信息资源描述与组织 元数据: 元数据概念与作用: 元数据(metadata)是关于数据的数据。哈佛大学数字图书馆项目对元数据的定义为:元数据是帮助查找、存取、使用和管理信息资源的信息。元数据在数字图书馆中的主要作用是对数字信息资源的组织和整序,亦即为分布式数据发现和检索奠定基础。 元数据功能: 描述功能 数字图书馆中的元数据描述功能有两个方面: 描述数字化信息的基本特征,使得数字化图书馆系统能够通过元数据体系自动有哪些信誉好的足球投注网站到数字化信息。 描述用户提问。 整合功能 所谓整合功能,指的是数字图书馆的元数据体系将各种不同格式的元数据,通过建立映 射、翻译等方法整合成一种元数据格式的过程,即实现不同格式元数据之间的互操作性,也是一个异构数据库之间的整合过程。 控制功能 元数据体系的规范控制功能包括信息内容的规范化描述、规范标引和信息评估等方面。元数据体系可以通过标准元数据模型来规范化描述数字信息。 代理功能 知道元数据本身也是替代记录,数字图书馆中的元数据体系同样具有代理功能。元数据的代理功能可以有效地节省网络资源,这是因为元数据是数字化信息资源的一种描述,记录了数字化信息资源的基本特征,可以基本反映信息的概貌,同时,元数据和数据相比,其数据量要小得多,可以作为完整信息的代理。 §4.1数字信息资源描述与组织 元数据类型 描述型元数据 持资源的发现和鉴别。题名、创造者、制作者、出版者、出版日期等都是典型的描述型元数据。 管理型元数据 数字图书馆中通过它实现对数字信息资源的有效管理。传统图书馆中有关借阅权限、馆藏地点等信息都是管理元数据的例子。 结构型元数据 结构型元数据反映数字信息资源的内部形式特征,如目录、段落、章节等,从而实现对数字信息资源的结构化存取。 技术型元数据 数字图书馆是高新技术的集聚地,其作业环境是典型的技术
您可能关注的文档
- 甘肃省天水市一中09-10年度高二上学期第二次阶段考试[英语].doc
- 第3章节财务报表剖析与长期的计划.ppt
- 第3章节进程与进程的管理.ppt
- 甘肃省天水市秦安县第二中学2015年高三下学期第二次模拟考试文科综合试题附解析.doc
- 第3章节车门flash的表现方法与制作.ppt
- 甘肃省天水市一中2011年高三第三次模拟考试题数学文.doc
- 甘肃省天水市秦安县高中2013-2014年度高二上学期期末考试数学[理]试题附解析.doc
- 甘肃省天水市第三中学2013年高三第九次检测文综试题.doc
- 第3章节金融会计存款业务的核算new.ppt
- 第3章节运算方法与运算器.ppt
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
文档评论(0)