- 1、本文档共88页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
02信息检索系统及其构成分析
* * * * * * * * * * * * * * * * * * * * Content Layouts * * * * Content Layouts * * * * * * * * * * * * * * * * * * * * * * * N-gram法 N-gram(N0),是指由N个相邻字符组成的字符串序列。 对文本进行处理,可得到该文本所包含的长度为N的字符串集合。 对“数字图书馆”进行4-gram处理, 有 {数字,字图,图书,书馆} 对“information”进行4-gram处理,有{info, nfor, form, orma, rmat, mati, atio, tion} N-gram法 N-gram法是一种与语种无关的纯统计分析式的文本处理技术 这种方法通过对汉语文本中的N-gram指标的出现频率进行统计分析,无需词典和规则,可大大提高文本标引的处理速度和自动化水平 2.3 信息存储各功能模块分析 自动标引中的词频统计和加权方案 自动标引中的词语加权方案 绝对词频法 逆文档频率法 词区分值法 绝对词频法 假设:当某个作者要深入阐述或解释某一话题时,它常常会重复使用某些特定的词语 这种强调手法可以作为判断词重要性的一种标志。也就是说,把词在文档中的出现频次作为该词重要性的一种有效测度 绝对词频法 基本原理 在给定的一个由N篇文档组成的文档集合中,计算出每篇文档中每个不同的词的出现频次Freqik 把每个不同词在N篇文档中的出现频次相加,得到词k的集合频率Tfreqik 按集合频率递减次序排列这些词,并用试错法确定高频词和低频词的阈值 排除高频词和低频词,挑选余下的中频词作为标引词,并按照他们的Freqik来决定在相应文档中的权值 绝对词频法 主要特点:方法简单,容易实现,有一定的实用性。 缺点:仅使用中频词作为标引词,简单排除高频词和低频词,不仅可能会降低查全率和查准率,而且确定高频词和低频词的截止界也是很困难的。 逆文档频率法 假设:某词的重要性与它在特定文档中出现的频次成正比,与含有该词的文档数成反比, 其计算公式 IDFk=log(N/nk)+a 其中,N为文档集合中的文档总数,nk为含有词k的文档数量,a为参数,通常取1或0.5 进一步,结合词的绝对频率值Freqik可以形成词k在文献i中的权值计算公式 Weightik= Freqik *IDFk 逆文档频率法 主要特点: Weightik的计算综合考虑了词的绝对频率和逆文档频率,从局部和全局两方面计算其在特定文献中的重要性,不仅计算方法比较简单,加权效果也比较好。 词区分值法 词区分值:使用某个词做内容标识时,它所具有的区分不同内容文档的能力 假设:对一个文档集合D, 其中的每篇文档都用等长的文档向量表示,可以计算出任意两篇文档向量之间的相似度 若把集合D中的全部文档对的相似度都计算出来,就可以得到一个平均相似度AvgSim。 因此,对于某个文档集合来说,其平均相似度越大,检索效率就越低,反之,平均相似度越小,检索效率就越高 词区分值法 如果一个词作为标引词使用后,能使文档集合的AvgSim显著地减小,或者把它去掉后会使AvgSim的值明显增大,就说明该词的区分力好,是一个有效的标引词 如果一个词作为标引词会使AvgSim的值显著地增大,去掉后使AvgSim的值显著地减小,则说明该词的区分能力差,不适合做的标引词 词区分值法 词区分值的计算 DVk = AvgSimk — AvgSim 其中, DVk为词k的区分值, AvgSimk为去掉该词k之后的文档集合的平均相似度 特点:加权计算量比较大,曾在SMART系统中使用过 自动标引处理流程 2.3.3 数据库创建与维护 数据库创建与维护模块 主要任务是在“信息资源选择与采集”和“信息标引处理”模块工作的基础上,建立和维护可直接用于信息检索的数据库 主要内容包括: 数据录入或扫描 错误检查与校对 数据格式转换 文档更新维护 信息检索系统的逻辑结构 信息检索的基本原理:对信息资源集合与信息需求集合的匹配与选择 信息检索是一种有目的和组织化的信息存取活动 2.4 信息查询各功能模块分析 用户(检索)接口 人机交互模型主要基于以下两个基本假定 用户的信息需求是静态不变的 信息查询是一个对提问式不断修改并逐步获取理想检索结果的过程 用户与信息检索系统的一个交互的循环模型 2.4 信息查询各功能模块分析 一、用户(检索)接口模块的基本构成 1、用户模型 2、信息显示 3、交互语言 4
文档评论(0)