- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
毕业设计开题报告
计算机科学与技术
基于关键词的网页检索和排序
选题的背景与意义
随着Internet的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。网页检索系统作为Internet上必不可少的信息资源检索工具,几乎每个网络用户都在使用它来寻找自己需要的信息。网页检索系统可以为用户进行网络导航,帮助用户在数以亿计的网络信息中快速查找所需的站点或网页,筛选出符合用户需求的有用信息。它是各类网络信息处理工具中比较稳定而最具效率的部分。网页检索系统是引领我们在浩瀚的网络信息资源中寻找真正所需的重要工具。
在最近几年里,WWW更是得到了长足的发展。全球的域名都7690万个了,要说网站应该少于这个数,但要说加入互联网的计算机那就没办法数了,网页更是天方夜谭。那么用户如何在浩瀚如海的信息空间里,快速查找并获取所需的信息,已成为这新的信息时代里最根本的问题之一。这就需要形成一些网页的信息检索系统,,它是在互联网产生后伴随着网上用户快速查询信息的需求而产生的新生事物,即提供信息检索服务的计算机系统,检索的对象包括互联网的站点、新闻组中的文章、软件存放的地址及作者、某个企业和个人的主页等,我们难以想象没有网页检索系统,人们如何在浩瀚无边、拥有着各种各样信息的因特网上冲浪。大大缓解了这个矛盾,它为人们大大缩短了浪费无用功的时间,让人们尽快地得到了自己所需要的信息和服务。
研究的基本内容与拟解决的主要问题
目标是要用智能的方式查找网页,只要给出想要用户输入的关键词,就能够从可获得的网页中选择优先服务满足用户的要求。
预定想解决的问题:
1.如何确定网页优先权。
2.如何衡量用户输入的关键词与网页的相关度。
3.如何计算用户输入的关键词与网页的相关度。
4.如何得到网页的的排序。
网页的优先权通过用户输入的关键词与网页的相关度来体现
假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹角来度量,夹角越小,说明相关度越高。
(2)如何得到网页的排序
网页的排序通过相关度的的计算,按相关度从高到低进行排序输出。
研究的方法与技术路线:
一.抓取网页
1.用HtmlParser抓取所需网页并保存为文本。
二.分词
1.对网页文本进行分词并保存到对应的分词文本。
2对输入的请求进行分词。
三.相关度的计算
1.对网页文件构造向量空间模型,将输入汉字串向量中的每一项作为网页向
量中的项,然后对输入汉字串向量中的每一项,查找网页的二元分词表根
据每一项在分此表中出现的次数,来构造网页的向量。
2. 对输入向量和网页向量进行相关度匹配采用夹角余弦计算方法作为相关
性的计算。
夹角余弦计算法:
向量空间模型VSM是近年来使用较多且效果较好的一种信息检索模型。在
VSM中,将文档看作是由相互独立的词条组(T1,T2,…Tn)构成,对于
每一词条Ti都根据其再文档中的重要程度赋予一定权值Wi,并将T1.T2…
Tn看成一个n维坐标系中的坐标轴,W1,W2….Wn为对应的坐标值。这样由
(T1,T2,….Tn)分解而得到的正交词条矢量组就构成一个文档向量空间,文
档则映射成为空间中的一个点。对于所有文档和用户查询都可映射到此文
档向量空间,用词条矢量(T1,W1,T2,W2….Tn,Wn)来表示,从而将文档信
息的匹配问题转化为向量空间中的矢量匹配问题.
假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹角来
度量,夹角越小,说明相关度越高,相关度计算公式如下
四.按相关度的高低进行排序输出
相关度计算的得出结果在(0,1)。越接近1说明相关度越高,则排在前面。
程序开发: Myeclipse
研究的总体安排与进度:
截止时间
要求完成的工作
2010-11-20~2010-11-26
在老师指导下进行毕业设计选题
2010-11-27~2010-11-28
明确课题的目标和内容及做好相应技术准备
2010-11-29~2010-12-6
下发毕业设计课题任务书
2010-12-13~2010-12-19
学生撰写开题报告
2010-12-20~2010-12-26
完成开题答辩
2010-12-27~2011-1-31
查找文献,完成文献综述和翻译
2011-2-1~2011-4-30
完成课题主要内容并进行实验验证
2011-5-1~2011-5-20
撰写毕业设计论文,整理材料,毕业设计论文完善,修改及定稿
2011-5-21~2011-5-31
完成毕业论文答辩
五、主要参考文献:
Papazoglou M P, Traverso P, Dustdar S. et al. Service-oriented computing: Sta
您可能关注的文档
- ATO透明导电薄膜的制备及光电特性研究现状综述【文献综述】.doc
- CDMA扩频通信系统多用户检测技术【文献综述】.doc
- Cr3+ CdWO4晶体的发光特性及其在可调谐激光器中的应用研究【文献综述】.doc
- D类高效率音频功率放大器【文献综述】.doc
- Ge-Ga-S玻璃薄膜制备及退火工艺的影响【文献综述】.doc
- OFDM技术概论【文献综述】.doc
- PCI Express光纤卡及硬件设计【文献综述】.doc
- PKI技术的发展与应用【文献综述】.doc
- ROF系统功率设计及增益分配研究【文献综述】.doc
- ZnO-SnO2透明导电薄膜光电特性研究【文献综述】.doc
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)