- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
企业产品相关评价采集
企业产品相关评价的采集本实例采集网站为“苏宁易购”手机列表页,筛选标题中包含“免息”两个字的内容并单击,进入详情页后采集标题、价格、评价人、评价内容、来自客户端、评价时间、有用数、回复数等信息。
步骤1:新建自定义采集任务翻页设置。在自定义采集模式下的浏览器窗口中对网页进行翻页操作,直至出现“下一页”按钮,单击该按钮,在“操作提示”面板中单击“循环点击单个链接”选项,如图所示。对网页进行翻页操作过程中,系统会自动设置“Ajax超时”选项。步骤2:输入实例网址并保存网址步骤3企业产品相关评价的采集
步骤4滚动页面设置。此时,发现苏宁列表详情页后续商品必须翻到指定位置后才会进行加载,需要设置滚动页面。任务中,需设置滚动翻页的步骤有两处,分别为“打开网页”和“点击翻页”操作。“打开网页”步骤设置“滚动页面”是为了让网页打开完成后滚动到下方加载完第一页所有数据,“点击翻页”步骤设置“滚动页面”是为了让第一页以后的每一页都可以把数据加载完。具体操作方法是,选择“点击翻页”模块后会有虚框包围,在设置界面中选中“滚动页面”右侧的“页面加载完成后向下滚动”复选框,根据该网页加载方式设置“滚动次数”为5次,“每次间隔”为1秒,“滚动方式”为“直接滚动到底部”。注意该任务的“打开网页”模块及“要点击的元素”下的“自动重试”需取消勾选,因为该网页使用Ajax加载方式,Ajax加载方式和自动重试不要同时选择。企业产品相关评价的采集
步骤5详情页设置。单击进入详情页设置界面,在浏览器窗口中确定商品全部加载完,连续单击两个商品标题,确定所有标题均被选中,单击“操作提示”面板中的“循环点击每个链接”选项,可在流程图中出现循环框和“点击元素”模块。企业产品相关评价的采集
步骤6筛选包含“免息”字样标题。该步骤需要使用判断条件功能,从工具栏中拖动“判断条件”至循环框中的“点击元素”模块内,判断条件筛选设置如图所示。将“点击元素”模块拖至左侧的“条件分支”中,并在右侧选择“当前循环项包含文本”单选项,在“包含文本”输入框中输入“免息”。该步骤实现对每个标题进行判断,只有包含“免息”文字的标题才会打开详情页。企业产品相关评价的采集
步骤7加载评价内容。单击详情页中的“评价”选项后,单击“操作提示”面板中的“点击该链接”选项,在上方的流程图中生成“点击元素”模块,如图所示,并已自动设置Ajax加载。企业产品相关评价的采集
步骤8评价翻页。翻动浏览器窗口,找到评价翻页内容,单击“下一页”按钮,在“操作提示”面板中单击“循环点击下一页”选项,流程图中生成“循环翻页”模块,修改“Ajax超时”的时间为2秒,如图所示,作用是加载所有评价。企业产品相关评价的采集
步骤9循环提取字段。选择两条评价内容,系统会自动选择该页的所有评价,单击“操作提示”面板中的“采集以下元素文本”选项,删除生成的“提取数据”模块中的字段,添加标题、价格、评价人、评价内容、来自客户端、评价时间、有用数、回复数及页面网址字段,添加方式为将鼠标指针移动到所需内容,待内容变蓝后单击,选择“采集该元素的文本”选项即可。企业产品相关评价的采集
步骤9注意该步骤需要选择当前评价内容,当前评价内容会以红线边框包围,如图所示,需要在红线边框内容里选择提取字段。如果希望调整红线边框的位置,可在循环提取中选择对应内容后,单击“提取数据”模块,即可改变红线边框的位置。企业产品相关评价的采集
步骤10格式化数据。格式化数据的目的是将提取内容中无用的部分去除,包括来自客户端字段的“来自:”、有用数以及回复数的“()”。格式化数据的操作方式如图所示。选中需要格式化的字段,单击下方的“自定义数据字段”按钮,在弹出的界面中选择“格式化数据”选项,进入格式化界面,单击“添加步骤”按钮,在打开的“请选择一个操作”对话框中选择“替换”或“正则表达式替换”选项,将“来自:”“(”“)”替换为空,即进行删除。企业产品相关评价的采集
步骤11开始采集。单击左上方的“开始采集”按钮,在弹出的“运行任务”对话框中单击“启动本地采集”按钮进行采集。企业产品相关评价的采集
步骤12数据导出。采集完成后单击下方的“导出数据”按钮,在弹出的对话框中选择导出方式进行导出操作。企业产品相关评价的采集
资料来源:[1]刘宝强,商务数据采集与处理.北京:人民邮电出版社,2019
谢谢观看Thanksforwatching
您可能关注的文档
- 《挤出成型技术》课件——模块2 原料混合设备.pptx
- 《挤出成型技术》课件——模块3 挤出成型设备.pptx
- 《建筑力学与结构分析》课件——(三)受压构件力学分析与构造要求1.pptx
- 《建筑力学与结构分析》课件——1_建筑力学与结构.pptx
- 《建筑力学与结构分析》课件——4.1扭转的基本概念、外力偶矩计算、扭矩图绘制.pptx
- 《建筑力学与结构分析》课件——4.2受扭构件的构造要求.pptx
- 《建筑力学与结构分析》课件——5.1剪切与挤压.pptx
- 《建筑力学与结构分析》课件——5.2钢结构的连接.pptx
- 《建筑力学与结构分析》课件——6.5梁、板的一般构造要求.pptx
- 《妇科护理》课件——第二章 妇科常用的特殊检查及护理配合.ppt
文档评论(0)