- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人工智能大作业-主题爬虫-浙工大交换生-姜楠
成绩 北 京 航 空 航 天 大 学人工智能实验报告主题爬虫设计与实现学 院 浙江工业大学交换生专业方向 计算机科学与技术 学生姓名 姜楠 指导教师 巢老师 北京航空航天大学 计算机学院2014 年6月主题爬虫的设计与实现引言互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。有哪些信誉好的足球投注网站引擎作为一个辅助人们检索信息的工具,但是这些通用性有哪些信誉好的足球投注网站引擎存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用有哪些信誉好的足球投注网站引擎所返回的结果,包含大量用户不关心的网页。所以需要一个能基于主题有哪些信誉好的足球投注网站的,满足特定需求的网络爬虫。为了解决上述问题,参照成功的网络爬虫模式,对网络爬虫进行研究,提供满足特定有哪些信誉好的足球投注网站需求的网络爬虫。实验设计实验要求可以进行多线程进行抓取;可以进行面向主题进行抓取;可以分辨重复的的网页内容;可以计算主题相关性;可以处理网络延时等待的处理;实验环境配置系统硬件环境:LENOVO-G470 Intel Core(TM) i3-2330M@2.20GHz操作系统环境:Windows 8.1 专业版实验配置环境:Java SE Development Kit 7 Update 45;Eclipse Kepler ;MySQL Server 5.6;实验方案设计广度优先有哪些信誉好的足球投注网站策略广度优先有哪些信誉好的足球投注网站策略是指在抓取过程中,在完成当前层次的有哪些信誉好的足球投注网站后,才进行下一层次的有哪些信誉好的足球投注网站。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先有哪些信誉好的足球投注网站方法。也有很多研究将广度优先有哪些信誉好的足球投注网站策略应用于主题爬虫中,基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先有哪些信誉好的足球投注网站与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。深度优先有哪些信誉好的足球投注网站策略深度优先有哪些信誉好的足球投注网站策略是一种在开发网络爬虫早期使用得较多的方法,是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。当不再有其他超链可选择时,说明有哪些信誉好的足球投注网站已经结束。最佳优先有哪些信誉好的足球投注网站策略最佳优先有哪些信誉好的足球投注网站策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优有哪些信誉好的足球投注网站算法。因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点。研究表明,这样的闭环调整可以将无关网页数量降低30% ~ 90% 。主题相关度建模 – 向量空间模型向量空间模型是由Salton等人于20世纪60年代末提出,是一种简便、高效的文本表示模型,其理论基础是代数学[1]。向量空间模型把用户的查询要求和数据库文档信息表示成由检索项构成的向量空间中的点,通过计算向量之间的距离来判定文档和查询之间的相似程度。然后,根据相似程度排列查询结果。向量空间模型的关键在于特征向量的选取和特征向量的权值计算两个部分。对于任一文档,我们可以把它表示为如下t维向量的形式:其中,向量分量代表第i个标引词在文档中所具有的权重,t为系统中标引词的总数。在布尔模型中,的取值范围是;在向量空间模型中,由于采用“部分匹配”策略,的取值范围是一个连续的实数区间[0,1]。在检索的前处理中,一篇文档中会标引出多个不同的标引词,而这些标引词对表达该篇文档主题的能力往往是不同的。也就是说,每个标引词应该具有不同的权值。如何计算文档向量中每个标引词的权值,不仅关系到文档向量的形成,也关系到后续的检索匹配结果。 标引词权重的大小主要依赖其在不同环境中的出现频率统计信息,相应的权重就分成局部权重和全局权重。 局部权重(Local Weight) 是按第i个标引词在第j篇文档中的出现频率计算的权重。它以提高查全率为目的,对在文档中频繁出现的标引项给予较大的权重。全局权重(Global Weight) 则是按第i个标引词在整个系统文档集合中的分布确定的权重。它以提高查准率为目的,对在许多文档中都出现的标引项给予较低的权重,而对仅在特定文档中出现频次较高的标引项给予较大的权重。计算全局权重的典型方法就是逆文档频率IDF(Inverse Document Frequency)加权法:其中,N为系统文档总数,为系统中含有标引词 的文档数。向量间相似程度的度量方法有内积法(Inner Product)、Dice法(Dice Coefficient)、Jaccard法(Jaccard Coefficient)和余弦法(Cosine Coefficient)。 较常用的度量方法是提问向量和文档向量间的内积
您可能关注的文档
最近下载
- XGZ系列刮板输送机图册.pdf
- 第10课《 再塑生命的人》课件(共22张ppt)部编版语文七年级上册.pptx VIP
- 近5年上海市高考语文真题之书序、游记类文言文阅读汇编.docx VIP
- 00708装饰材料与构造-全国自考-2021年4月高等教育自学考试真题(试卷).pdf VIP
- XGZ系列铸石刮板输送机.doc
- 小学篮球原地运球、行进间运球教案.doc
- 中国林业研究院806有机化学考研真题试题2020年.pdf VIP
- 中国林业研究院806有机化学2019考研真题试题.pdf VIP
- 2024年初级咖啡师技能鉴定考试题库大全-上(单选题汇总).docx
- 2024-2030年中国氦(液氦和气态氦)行业市场发展趋势与前景展望战略分析报告.docx
文档评论(0)