1.開题报告.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.開题报告

南京邮电大学毕业设计(论文)开题报告 题  目 半结构化数据的结构化映射研究 学生姓名 唐炜强 班级学号 B070703 专业 数字媒体技术 提纲(开题报告2000字以上): 1. 对指导教师下达的课题任务的学习与理解 2. 阅读文献资料进行调研的综述 3. 根据任务书的任务及文献调研结果,初步拟定的执行(实施)方案(含具体进度计划) 1. 对指导教师下达的课题任务的学习与理解 随着Internet 日益普及,网络数据不断增长,Internet已经成为人们的主要信息来源之一。网络信息资源的动态性、分布性、多元性和无序性等特点,使信息的查找和检索变得越来越困难。 Internet上拥有的大量数据,按照结构可以将Web数据分为三种,一种是结构化数据,如关系数据库中的数据;一种是无结构的数据,如声音、图像等数据;还有一种是介于这两种情况之间的数据,称为半结构化数据(semi-structured data)。据统计,全世界有80%以上的数据是以半结构化数据形式存在的。 如何对网络信息资源进行合理的描述,组织、管理网络信息资源,提高信息利用率,是目前的研究热点。而要解决这个问题,就需要实现半结构化数据到结构化数据之间的映射。本课题就是研究这方面问题的,并且主要按照实用和有效的原则,研究网站半结构化数据的结构化映射,实现半结构化数据的结构化转换。 按照本课题的研究方向,本人要先认真研究半结构化数据设计一种基于预定义模式Web网页结构化数据抽取包装器软件从非结构化的、不包括任何语义的HTML文档中抽取结构化语义数据选取几个Web页面进行了数据抽取验证和抽取结果分析该软件 2. 阅读文献资料进行调研的综述 半结构化数据(semi-structured data)介于模式固定的结构化数据(如关系库中的表/元组和对象库中的类型/对象)和完全没有模式的无序数据(如正文、声音、图象)之间Querying semi-structured data》中定义半结构化数据为:半结构化数据是指那些既不是完全无结构的,也不是传统数据库系统中那样有严格结构的数据。 李庆华和刘昊在《用待确定的上下文无关文法分析半结构化数据》中给出的数据以及半结构化数据的定义如下: 定义1(数据):数据可以看作是一个有序的流a1a2...an,对数据的一个有序划分是指对a1a2...an的一个划分Δ1,Δ2,…,Δm,它满足Δ1Δ2…Δm→a1a2... an。 定义2(半结构化数据):如果数据的结构所对应的语言无法用全局一致的上下文无关文法描述但是存在数据的一个有序划分,对分割出来的每个分划,利用前i个分划的语义信息,可以得到第i+1个分划的局部一致的上下文无关文法,则称之为半结构化数据。 半结构化数据主要来源有三个方面: 1)在WWW等对存储数据无严格模式限制的情形下,常见的有HTML、XML和SGML文件; 2)在电子邮件、电子商务、文献检索和病历处理中,存在着大量结构和内容均不固定的数据; 3)异构信息源集成情形下,由于信息源上的互操作要存取的信息源范围很广,包括各类数据库、知识库、电子图书馆和文件系统等。 半结构化数据的特点是数据的结构不规则或不完整半结构化数据Internet上拥有的大量数据,按照结构可以将Web数据分为三种,一种是结构化数据,如关系数据库中的数据;一种是无结构的数据,如声音、图像等数据;还有一种是介于这两种情况之间的数据,称为半结构化数据。据统计,全世界有80%以上的数据是以半结构化数据形式存在的。网络上的SGML文档、Web数据和XML数据等都是半结构化数据。尤其以XML为代表的半结构化数据模型,以其自身良好的可扩展性、自描述性和动态可变性等特点,成为了数据存储、数据交换方面的首选类型。 XML(eXtensible Markup Language)是标准的通用标记语言SGML[ISO8879]的一个子集,用于支持Intemet上有结构文档的交换。和HTML(Hypertext Markup Language)相比,XML是面向内容的,它具有更多样化的结构和更丰富的语义,并具有可扩展性良好、易于掌握和自描述等特点,适用于Web上的数据交换。XML数据模型与半结构数据模型有着很多的相似性,它既为半结构数据的研究提供了广阔的应用前景,同时也推动了半结构化数据研究的发展。 随着Internet 日益普及,网络数据不断增长,Internet已经成为人们的主要信息来源之一。网络信息资源的动态性、分布性、多元性和无序性等特点,使信息的查找和检索变得越来越困难。对于21世纪的信息用户和信息管理者来说,困扰他们的不是信息太少,而是信息过多的问题。 因此,如何对网络信息资源进行合理的描述,组织、管理网络信息资源,提

文档评论(0)

fv45ffsjjI + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档