文本信息检索技术.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本信息检索技术.doc

期末课程论文 论文标题:基于文本信息检索技术 课程名称:信息检索技术 课程编号:1220500 学生姓名: 学生学号: 所在学院:计算机科学与工程学院 学习专业:计算机科学与技术 课程教师: 2013年7月 4日 文本具有与平台无关、支持基于内容的联想式超链接信息组织方式以及多媒体化的人机界面,因此成为Interact上信息组织、存储与发布的主要方式之一。但是,由于文本是一种非结构化文档,一般仅适合于信息的浏览和导航,而无法像数据库那样实现基于主题、关键词、内容等的信息检索。其次,一张主页至少对应一个以上的文件,当信息规模较大时,不仅文件数量巨大,而且文件间存在的错综复杂的链接关系也难以维护.在数字化图书馆、多媒体课件资源以及ICP(Intemet ContentPmvider)网站构造等应用中,这种情况尤为突出.因此,如何实现超文档的规范化管理,并提供基于主题和全文的检索功能,已经成为数字图书馆、多媒体远程教育中课件资源管理以及ICP服务的一个重要问题。 目前,实现文本信息的全文检索,一般有以下两种解决途径:① 采用Web服务器自带的索引服务器,如Microsoft IIS自带的Index Server,这种方法只能实现字符串匹配查询,无法实现按主题查询,效率低下,无法跨平台,也无移植性;②通过将非结构化的文本文件集转换成结构化数据库,并对数据库中文本记录的特征字段进行标引。形成完整的文本数据库.在此基础上开发相应的基于web的检索引擎,实现对超文本查询的目的。 本文在分析文本信息检索功能需求的基础上,提出了一种将非结构化的超文本转换为结构化数据库的模型,并且提出了一种支持文本信息全文检索的解决方案,在数字图书馆系统和多媒体远程教育系统的课件资源管理与检索中得到了实际应用和验证。 功能需求与模型 一般地,对于一个规模较大的超文本信息群,应向用户提供以下检索功能。 信息分类.通过对信息进行分级、分类组织, 为用户提供信息源选择的功能,以便为用户导航或 查询界定检索范围.对于范围过大的信息群,有必要 采用二级甚至多级分类,使用户在进行具体检索前 通过逐级选择信息类别达到缩小检索范围的目的。 组合条件.为用户提供不同源信息的组合检 索,例如用户可以根据主题、作者、关键词、日期等栏 目,提出综合检索要求。 全文检索.根据用户设定的条件,在全文范 围内进行检索,并可按照检索词的特定指标评价检 索匹配度,并实现检索结果的全文显示。 逐级检索.在信息检索中,首次检索可能因 为条件不够精确而导致检索结果信息量过大,用户 裔要在此基础上进行二次或多次检索,而每次检索 都是以上次结果作为本次检索范围,以逐步缩小信 息量.逐级检索技术对于用户而言,还具有启发作 用,根据每次得到的中间结果.适时调整检索方向, 达到逐步求精检索目标的目的。 结果处理.对于最终获得的检索结果,除了 提供显示功能外,还应提供保存、Email转发、打印等功能。 为了满足以上需求,需要解决以下两个问题:一 是如何将非结构化的超文本信息集转换成结构化的 数据库;二是在结构化转换的基础上如何实现全文检索。 首先,将超文本文件集转换成超文本数据库,除 了要满足无损性、可还原性等要求外[4],为了实现 对超文本数据库的有效管理,并且支持超文本信息 查询,还应该具备以下功能。 特征标引.允许工作人员对转换后的超文本 记录进行特征标引,如关键词、主题词、摘要、作者、 日期等。因为这些信息都是Web用户查询所需要 的,但转换程序无法从超文本文件中直接获取这些 信息. 安全刪除与替换.当刪除(或替换)超文本数 据库中的一条记录时,系统将自动判断该记录对应 的超文本是否和其他记录对应的超文本相关联。如存在关联,则给出瞢告,如果确认刪除,则由系统自 动更新与此超文本相关的链接。 链接关系查看.以树状或网状形式反映出某 一超文本和其他超文本文件之间的链接关系,工作 人员可以一览全局。 由此,可以得到如图1所示的超文本结构化转 换与全文检索的实现模型。 超文本检索引擎的原理 为了有效说明超文本检索引擎的实现原理,先对超文本检索问题进行形式化描述.超文本信息集可以用有向图H=(N,E)表示,其中N 为超文本结点集,即HTML文件集,E表示结点间的链接关系,又n = || N丨|,进一步定义以下术语及符号。 (1)超文本文件地址:=URT(HTML) (2)超文本地址集U:U ={所有HTML文件对应的地址}= (3)超文本获取操作Ⅳ :web浏览器根据地址Ui获得网页HTML文件的操作.表示为 = (4)链接关系L():对于任意结点P ∈N,可能存在若干指向其他结点的链接,设为 (),则 ()={( ),( ),?,( )}式中:( )表示存在从 指向 的超

文档评论(0)

dzzj200808 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档