- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机网络与分布式系统设计.
Job-Hunter项目报告
系统需求
职位有哪些信誉好的足球投注网站引擎的定位是Web求职有哪些信誉好的足球投注网站门户,不同于51,等招聘门户网站,有哪些信誉好的足球投注网站是我们最大的特色。为此系统需要实现的功能主要有:
用户信息管理功能:提供用户注册、浏览并修改注册信息、用户登录、用户退出等功能,用户注册时填写的学历,专业等信息将被用来进行个性化的查询,用户要使用这个功能必须首先登录。
建立尽可能大的职位库:职位信息的来源是网上现有的招聘信息,不论是集中在一个站点上的还是分散在多个站点上的,都是需要搜集的内容,使用这些职位信息,为用户提供服务。职位信息存储在数据库中。
用户有哪些信誉好的足球投注网站职位信息:比加用户输入“Java程序员”,系统将在数据库中查找匹配的信息,并且反馈给用户,针对不同用户,返回的结果也有所不同。可选功能是在查询词之外,还需要用户选择“工作地点”等选项,以提供更准确的查询,查询界面如图1.1所示:
图1.1
提供职位的分类情况:为用户提供另外一个除查询之外的浏览职位信息的方式,需要将职位库中的信息按照职位的性质分类,允许用户选择自己感兴趣的类别浏览,用户可以不用登陆,这种情况下不提供返回个性化结果的功能,示例如图1.2所示。
图1.2
系统目前提供中文职位有哪些信誉好的足球投注网站,英文暂时不考虑。
二、系统实现
总体结构
我们将系统的实现分为前端部分和后端部分,如图2.1所示。
图2.1
后端部分包括图中左边矩形框中的模块和右边矩形框中的Classifier模块,主要由数据抓取(Crawling)模块,信息提取(IE)模块,网页文本分类(Classifier)模块组成。
其中前两个模块和系统数据库运行在Linux平台,这里我们选择的是Redhat Linux 9.0,内核版本是2.4.20-8。数据抓取模块通过一定的策略,负责从Web上搜集大量包含有职位信息的网页,数据抓取模块就将抓取的结果交给信息提取模块,由信息提取模块完成信息提取功能。生成的结构化数据就可以存入数据库中。 网页文本分类模块进一步将数据库中的职位信息按照预先设定的类别进行分类,为前端查询模块提供更多的有效信息,为用户返回更加准确的结果。
右边矩形框是前端部分,主要的功能模块有用户注册模块、有哪些信誉好的足球投注网站工作信息模块、浏览全部工作信息模块以及按类别浏览工作信息模块。除了用户注册模块,其他模块所需要的数据均来自于后端程序所抓取、解析工作信息页面而形成的数据库。用户注册模块在数据库中有单独的一张表——userinfo表,其中保存了已注册用户的信息。有哪些信誉好的足球投注网站工作信息模块就是在用户登陆之后,直接根据用户注册时填写的信息而返回符合用户条件的工作信息。浏览全部工作信息模块则是让用户浏览数据库中所有保存的信息。按类别浏览工作信息模块,是利用了后端的分类结果,可以由用户选择不同的类别,然后将相应类别的工作信息返回给用户。这几个模块的实现是在windows下用JSP以及JAVA BEAN完成的。
下面分模块进行详细介绍。
数据抓取模块
数据抓取模块负责从Web上搜集大量包含有职位信息的网页,这些网页是分布在整个Web上的,首先要考虑这些网页在Web上的分布如何,才能制定合理的抓取策略,写程序实现网页抓取功能。首先,我们认为抓取包含职位信息的网页是属于Focused Crawling研究的内容,属于高级抓取技术。从实际情况来看,中文的职位信息主要分布在两个地方,一个是各公司的主页有人才招聘的页面,专门发布招聘信息,这些网页在Web上是分散的;另一个来源是现在国内有很多网上求职招聘网站,比较大的有51,,等,这些网页在Web上是集中的。对于这两种类型的网页需要有不同的抓取策略。
关于分布在公司主页上的网页抓取,考虑一般的Focused Crawling,如果具有典型的按照主题聚集的特点,将是一种比较理想的状况,比如某一个网站关于动漫的网站,那么它链出的网页是同主题即关于动漫的网页的可能性比较大。而对公司网站上的人才招聘页面,我们认为并不具有按照主体聚集的特性,因为网站是一个企业在网上宣传或营销的平台,企业之间的竞争关系使的这些网页之间不存在互相指向的关系。因此,要找一个比较容易实现的方法来抓取这些网页,我们给出一种方法:通过有哪些信誉好的足球投注网站引擎返回查询结果或者找一些Hub网页来进行抓取,如果想采用有哪些信誉好的足球投注网站引擎查询的方法,类似于元有哪些信誉好的足球投注网站引擎,需要向一些比较大的商业有哪些信誉好的足球投注网站引擎发送查询关键词,得到返回的结果。经过实验,发现效果并不好,如果向百度发送“企业主页”的查询,有哪些信誉好的足球投注网站引擎只返回了76*10 = 760个页面,即是这些“企业主页”都有效,得到的入口地址还是太少,通过有哪些信誉好的足球投注网站引擎查询的方法不是一个比较好的方法。另一种方法是通过Hub网页,比如我们找到新浪企业黄页:/,该黄页索引的网页数量已经有569522家,利用这样的Hub网页可以得到大量的有用链接,目前我们Crawler暂时
您可能关注的文档
- 计算机等级考试二级VFP练习题[全国][评析](2006.9)..doc
- 计算机等级考试四级考试笔试模拟试题及答案..doc
- 计算机等级考试四级数据库工程师笔试试题(文字版))..doc
- 计算机等级考试二级上机100套题库..doc
- 计算机等级考试网络技术复习资料..doc
- 计算机简单故障维修手册..doc
- 计算机等考三级网络技术笔试历年真题及答案..doc
- 计算机算法与设计复习题(含答案)..doc
- 计算机等级考试练习题..doc
- 计算机科学与技术人才培养方案..doc
- 2024至2030年中国浮雕饰板数据监测研究报告.docx
- 2024年中国磷酸盐搅拌箱市场调查研究报告.docx
- 2024年06月四川省眉山市文化馆2024年公开选调1名事业人员笔试历年典型考点解题思路附带答案详解.docx
- 2024至2030年中国商用纯净水设备行业投资前景及策略咨询研究报告.docx
- 2024年采访移动查重系统项目可行性研究报告.docx
- 2024至2030年中国卧式劈木机数据监测研究报告.docx
- 2024年06月南京江北新区教育和社会保障局所属事业单位2024年公开招考7名财务人员笔试历年典型考.docx
- 2024年05月陕西省宝鸡市市属事业单位2024年公开招考79名高层次人才笔试历年典型考点解题思路附.docx
- 2024至2030年波动式关节活动装置项目投资价值分析报告.docx
- 2024至2030年中国银翘解毒丸数据监测研究报告.docx
文档评论(0)