- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
个性化推荐系统采集模块探究
个性化推荐系统采集模块探究 摘要:在基于社会计算的个性化推荐系统设计中,采集模块的设计是数据的源头,也是系统数据分析的基础,关系到系统的质量。因此,采集模块作为个性化推荐系统的一个部分,有着举足轻重的作用,该文对该模块进行了详细的研究,为后面模块的设计提供了理论基础,也为相关系统的开发设计提供一定的借鉴经验。
关键词:采集;模块;系统
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)10-2446-04
Abstract: On the base of social computing personalized recommendation system design, design of the acquisition module is a data source, but also the basis for system data analysis, related to the quality of the system. Therefore, a collection module as a personalized recommendation system, play a decisive role, this paper makes a detailed study of the module, which provides a theoretical foundation for designing the back modules, and also provides some useful experience in development and design for the system.
Key words: acquisition; module; system
基于社会计算的个性化推荐系统的采集模块,关系到系统的质量,为系统的性能指标提供可靠的保证。采集模块实现了对网页文档信息的自动采集“爬虫”功能,能够基于用户的信息关键词来有哪些信誉好的足球投注网站。
采集模块由网页文档信息采集模块、lucene索引建立模块和有哪些信誉好的足球投注网站推荐主干模块构成,分别从模块的描述、功能、输入项、输出项、流程逻辑和接口详细介绍了其实现的原理。
1 网页文档信息采集模块
1)模块描述
本模块的重点之一是网络爬虫的编制。网络爬虫需要实现自动地抓取网页文档,提取网页地址,并且循环进行。尽管网络资源在同一个域之内,但为了提高爬取效率,还需要实现多线程才能保证更新的效率。另外,对于抓取到的文本存储路径相对于网页的网址,必须进行转换,才能更快速地在本地数据库中搜寻到该网页。而对于 IP地址则要做一个判断,以实现在规定范围的有哪些信誉好的足球投注网站。
2)模块功能
主要功能由start函数实现,其原型为:Start(UribaseURI ,intthreads) ,UribaseURI参数是表示需要下载的链接,后面的函数表示线程数量。路径的转换则需要通过转换字符实现。基本功能如表1网页文档信息采集功能表所示:
3)模块输入项
模块输入主要是对爬虫参数的设置,爬虫参数的设置要求如表2爬虫参数设置说明表所示:
4)模块输出项
本系统主要进行新浪博客的网页文档抓取,数据采集结果主要包括该博客网页文档以及该博客的地址,博客的题目、内容、作者以及采集的时间等。
5)模块逻辑流程
本模块的逻辑流程:首先分析源地址,然后获得地址列表,接下来反复循环每个地址,并调用相关方法来获取内容,通过计算,并得到文章相关信息,最后将获得的信息保存在数据库中。
6)模块接口
数据的采集是从新浪服务端将博客网页文档数据存储到本地数据库的过程,模块的接口如图1所示。
2 lucene索引建立模块
1)模块描述
索引建立模块独立于运行平台,实现了文档的解析和索引的创建,在本系统中解析的文档类型主要是html文档。
以 IndexWriter 建立索引 IndexWriter 的构造函数有三种接口,针对目录 Directory 文件 File文件路径 String 三种情况在索引结束时使用 Lucene 的 wirter. optimize( ) 方法优化索引。
2)模块功能
实现模块功能之前需要利用IKAnalyzer中文分词器对文档内容进行分词。分词器IKAnalyzer可以进行文档的筛选,获取目标文档,无用部分则剔除掉。其常用接口有org ,apache, Lucene, analysis,Analyzer 虚构类。
在该模块中主要利用格式转换类的方法,对格式文件采用与其相对应的解析方式来实现格式的转换,HTML文档利用
您可能关注的文档
- 一日活动中如何培养孩子良好习惯.doc
- 一曲冒险田园牧歌.doc
- 一机集团全面实现精益管理.doc
- 一株中度嗜盐蜡样芽孢杆菌分离鉴定和其对苯胺降解特性.doc
- 一株可降解孔雀石绿肺炎克雷伯氏菌分离和鉴定.doc
- 一例随班就读学生回流特殊学校案例个案报告.doc
- 一次性根管治疗术治疗慢性根尖周炎和牙髓坏死.doc
- 一次高中历史翻转课堂实践和反思.doc
- 一款新型汽车故障诊断仪设计.doc
- 一段情结 唤起一份传承责任 一缕茶香 诉说一段紫砂缘分.doc
- 2023长春数学试卷(word版).docx
- 婴儿日常护理知识分享试题及答案.docx
- 2024-2025学年初中地理鲁教版(五四学制)六年级上册教学设计合集.docx
- 2025至2030年中国精密智能测试台行业投资前景及策略咨询报告.docx
- 2025至2030年中国精密机器零件市场调查研究报告.docx
- 2025至2030年中国精密机械组件市场调查研究报告.docx
- 2025至2030年中国精密封装模具行业发展研究报告[001].docx
- 2025至2030年中国精密型胶模行业发展研究报告.docx
- 2025至2030年中国精密封装模具行业发展研究报告.docx
- 2025至2030年中国精密塑封膜行业投资前景及策略咨询报告.docx
文档评论(0)