中医药信息有哪些信誉好的足球投注网站引擎的研究与初探.pdfVIP

中医药信息有哪些信誉好的足球投注网站引擎的研究与初探.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

中医药信息有哪些信誉好的足球投注网站引擎的研究与初探

基于中医药科研教学中对大数据的需求,本文针对如何在互联网中快速获得

大量相关信息在技术层面进行了研究和探讨。提出了以垂直爬虫为基础的中医药

信息有哪些信誉好的足球投注网站系统的体系结构,在理论层面研究了爬虫系统依赖的技术,包括语义分

析、爬行算法以及正则表达。奠定了整个系统的理论以及架构基础,为下一步的

具体实现进行了有价值的先期铺垫。

标签:爬虫;语义分析;理论研究;正则表达;中医药

中医药是华夏先祖智慧的结晶,他们历经千年,不断传承,延绵至今;如今,

随着大数据时代的脚步不断临近,传统中医中药信息的承载和传播,也逐渐从纸

质古籍的代代相传,演变为互联网的分布式存储以及几何量级的有哪些信誉好的足球投注网站与复制。

为了应对这种发展的趋势,如何能快速,准确,完整的从互联网中采集所需

要的中医药数据,进而对其挖掘分析,日益成为了广大科研人员所面临的一大问

题。

因此,使用技术手段,使信息采集、数据挖掘的过程自动而高效,不仅能有

效地减轻图书馆员的重复工作量,也能使信息采集数据挖掘的结果更加客观。

在这种情况下,爬虫技术开始走入了我们的视线。

1爬虫技术概述

所谓网络爬虫,是一个从Web上下载网页、并且自动从网页中提取所需内

容的程序。一般我们将爬虫划分为如下三个类型:

1.1批量型爬虫批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个

设定的目标后,即停止抓取过程。常见的目标包括抓取网页的数量或者消耗的时

间等。

1.2增量型爬虫增量型爬虫特点是定期更新,由于在线网页处于不断变化

中,而增量型爬虫需要及时反映这种变化,因而必须持续不断的抓取,既要抓取

新网页,又要更新已有网页。通用的商业有哪些信誉好的足球投注网站引擎爬虫基本都属此类。

1.3垂直型爬虫垂直型爬虫关注特定主题内容或者行业的网页。垂直型爬虫

一个最大的特点就是:如何识别网页内容是否属于指定主题。它需要在抓取阶段

就能够动态识别某个网址是否与主题相关,并尽量忽略无关页面。

2中医药信息有哪些信誉好的足球投注网站系统中的爬虫技术

显而易见,中医中药,作为一个特定行业,只有垂直爬虫的定义最为符合其

信息采集的特性。因此,如何设计并构建一个适用于中医中药的,以垂直有哪些信誉好的足球投注网站为

目的的网络爬虫系统,逐渐成为值得我们深入研究的课题。

2.1垂直爬虫的技术原理垂直有哪些信誉好的足球投注网站里,目标网站往往在某一领域具有其专业

性,其整体网站的结构相当规范,并且垂直有哪些信誉好的足球投注网站只需要其中一部分具有垂直性的

资源,所以垂直爬虫相比通用爬虫更加精确。

通常把爬虫爬取资源分成三个步骤:url抓取、内容抓取、数据标准化及索

引,以下是一般垂直爬虫的工作流程:①首先确定需要抓取的目标网站,录入站

源表sitelist,然后爬虫会读取对应站点的正则解析规则。②根据事先制定的正则

规则,筛选出资源url存入urllist表。③爬虫从urllist表读出url,存入一个同步

的队列中(同时将url做md5处理,用于去重),多线程下的每个爬虫程序将从

此队列读取url,然后爬取每个资源页,并将提取的内容存入原始数据表。④数

据标准化及索引模块从原始数据表提取数据,进行进一步的规整、聚合,最终存

入最终内容表中。

更新策略:①根据每个站点设定的url失效时间,定期的从数据库抽取需要

更新的资源url,加入步骤3的队列中,进行资源爬取。②爬取的资源更新到数

据库中。

2.2爬虫系统的先决技术和算法由上一节可知,要实现中医药数据有哪些信誉好的足球投注网站系

统,一个基于垂直爬虫的数据采集服务系统是关键,而以下几点无疑是要实现这

个爬虫系统的先决技术。

2.2.1中医药语义分析所谓语义分析,就是对web页面所包含的部分或者全

部文字内容的含义进行分析,一般包括三个步骤:①分词。提取一个完整的中文

句子或者段落,根据一定的算法对其进行分词;在这里我们可以自定义算法,或

者调用现有的开源分词组件,如,Lucene的分词组件、ktdictseg等;分词后将所

有实词(除去连接词、语气词、介词等虚词)存入数组。②构建中医药语料库。

语料库通常由书面语或口語的电子语言材料构成。经过科学选材和标注、具有适

当规模的语料库能够反映和记录语言的实际使用情况。因此,根据收集的情报监

测网站以及日常中医药情报服务中涉及的内容,可以收录中医药、传统医学、补

充替代医学领域的专用词汇,规模可以维持在1000个词汇左右。③将分出的词

汇和语料库匹配。匹配率若能高于基

文档评论(0)

138****0174 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档