- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
海量信息可用性基础理论跟关键技术探究
项目名称:
海量信息可用性基础理论与关键技术研究
首席科学家:
李建中 哈尔滨工业大学
起止年限:
2012.1-2016.8
依托部门:
信息产业部
一、关键科学问题及研究内容
2.1 关键科学问题
为了适应海量信息管理基础设施建设的需要,针对国内外海量信息可用性管理的研究现状和发展趋势,本项目将围绕多种类型(不仅仅是关系数据库中存储的关系型)和以多种方式存储(不仅仅是集中式存储)的海量信息,以信息一致性、精确性、完整性、时效性和实体同一性为核心,针对前面提出的五大挑战,以保障信息可用性以及源于信息的知识的可用性为目标,拟解决“量质融合管理”、“劣质容忍原理”、“深度演化机理”三个关键科学问题,创建一套完整的海量信息可用性理论、方法学和技术体系。下边定义拟解决的三个科学问题。
1. 量质融合管理
量质融合管理是指数据、信息和知识三个层面上的量与质的融合管理机制。现有的海量信息基础设施只关注信息的规模、系统的处理能力和可扩展性,重在“量”的管理,忽视了信息“质量”(简称“质”)的管理。目前,劣质信息普遍存在,已经在实际应用中产生了严重后果,造成了巨大损失。信息质量的管理已经成为目前的巨大挑战问题。为此,我们必须研究信息“质”的管理问题,将信息管理从“量”的管理拓展到“质”的管理,最终实现“量”与“质”的融合管理。信息来源于数据,知识来源于信息。数据的质量决定了信息的可用性,信息的可用性影响知识的可用性。为了彻底实现量质融合管理,我们必须在数据、信息、知识三个层面研究量质融合管理问题,提出完整的理论体系,解决关键技术问题。
2. 劣质容忍原理
劣质容忍原理是指在包含错误的信息和知识上完成正确或近似计算和推理的原理。数据、信息和知识的错误几乎无处不在已成为不争的事实。“劣质容忍”是指在信息和知识存在错误的情况下,如何完成正确或相对正确的计算。为了实现劣质容忍,我们必须完成如下两个挑战性任务:第一,自动发现并修正信息和知识的错误,将可校正的劣质信息和知识修复为完全正确的可用信息和知识,支持正确的计算和推理。第二,很多信息和知识的错误无法完全修复,经过部分错误的修复后,这些信息成为部分正确的弱可用信息和知识。在这种情况下,我们必须解决如何在弱可用信息和知识上完成满足应用精度要求的近似计算和近似推理,取得满足用户质量要求的相对正确结果。
3. 深度演化机理
深度演化机理是指信息和知识的多维度、全方位演化的内在机理。信息不是一成不变的,它会随着时间和物理世界的变化而发生演化。源于信息的知识会随着信息的演化而进化。现有海量信息和知识管理在演化方面只关注完全正确的信息和知识,并仅限于探索随时间演化的过程。实际应用要求我们探索信息和知识的深度演化机理,即以可用性为核心的多维度、全方位、趋利、竞合演化机理。在信息的深度演化方面,我们需要研究多源信息在时间、空间、形态、粒度等多个维度上正向协同的演化机理。在知识的深度演化方面,我们需要研究由原始物理数据到有简单语义的信息、再到有丰富语义的知识的纵向演化机理以及知识被不断发现、聚合、更新的横向演化机理。
2.2 主要研究内容
本项目将围绕“量质融合管理”、“劣质容忍原理”、“深度演化机理”这三个关键科学问题,针对各种类型和不同形式存储的海量信息,以一致性、精确性、完整性、时效性和实体同一性为核心,沿着“数据→信息→知识→应用”的路线,深入系统地研究多模态海量数据高质量获取与整合的理论和技术、海量信息可用性与量质融合管理的基础理论、海量信息错误自动检测与修复的理论和技术、海量弱可用信息上的近似计算的理论和算法、海量弱可用信息上知识发现、演化与服务的理论和技术,提出完整的海量信息可用性的基础理论和关键技术,并将基础研究成果转换为有效的实用技术和算法,研制确保可用性的海量信息与知识的量质融合管理原型系统,以中国数字海洋(国务院908专项)和社保与经济普查信息为对象,建立复杂物理信息和管理信息两类主要信息的可用性保障应用示范,验证基础研究结果的可用性和有效性。本项目的具体研究内容如下。
2.2.
由于信息源于数据,本课题将在数据层面围绕数据的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,针对数据的多源性和多模态性,以最大化数据质量为目标,以多模态数据融合计算为核心,研究高质量多源多模态海量数据的获取与整合的理论与方法,实现高质量的数据到信息的整合,在信息和知识的源头设置质量关,继而研究信息演化的机理。具体研究内容如下。
1. 高质量多源多模态数据获取的多模态数据融合计算的理论与方法
首先,研究数据源的质量评估模型理论,包括物理信息系统等多数据源的综合质量评估、高质量数据源的选择方法等。
然后,研究多模态数据的质量评估模型理论,包括一致性、精确性、完整性、时效性、实体同一性等单指标质
文档评论(0)