电子商务数据运营与管理 第二版 第2章 电子商务数据采集与预处理.ppt

电子商务数据运营与管理 第二版 第2章 电子商务数据采集与预处理.ppt

  1. 1、本文档共83页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 2.3 电子商务数据采集实例 电子商务数据采集实训 1.实验目的 (1)了解数据采集相关知识 (2)实操通过八爪鱼工具进行数据采集 2.实验知识准备 (1)数据获取的基本流程 完整的数据获取流程主要包括采集、存储和清洗三个环节。 ① 采集:将整个 HTML 或者 JS 文件下载到本地,此时数据在文件中,文件可转换成文本这种可读的类型。 ② 存储:一般将下载的文件或者文本整个存入数据库。 ③ 清洗:从文件或者文本中提取目标资料,并组织成表格形式,形成可供分析的原始资料。 电子商务数据采集实训 2.实验知识准备 (2)反爬虫 平台为了避免被第三方采集工具大量采集数据,造成数据泄露等严重后果,或给服务器带来巨大压力,导致影响用户的正常使用体验,均为自己平台的数据设置了反爬虫机制。反爬虫机制一般包含 IP 限制、账号权限限制、密钥匹配这 3 种方式。 ① IP 限制:最基础的反爬虫方式,也比较好破解,通过变换网络 IP 即可破解。 ② 账号权限限制:必须登录账号才可以访问,且账号可能存在访问权限限制,如限制页面或者限制访问次数,破解的方法是上传身份信息给服务器,一般使用 cookie 字段。惯常的操作是:登录电商平台账号、获取 cookie 参数、在下载网页代码函数中加入 Headers、添加延时、提取 Json 数据,具体操作将在批量采集数据时有所涉及。对于限制访问权限的,需要使用具备对应权限的账号,如果暴力破解则是黑客范畴。对于访问次数的限制,只要频繁变换账号即可破解。 ③ 密钥匹配:密钥匹配是目前比较难破解的,需要具备密码学的知识,破解密钥的算法,然后自行生成密钥和服务器匹配。 电子商务数据采集实训 3.实验内容 业务背景:分析数据之前需要先有数据,数据一般可以通过数据商品和页面采集,采集数据时如果使用手动方式将耗费大量的时间和精力,因此使用软件构建采集脚本可极大节约时间成本。 接下来我们将借助一款常见的第三方采集工具——八爪鱼数据采集工具,实操如何利用八爪鱼软件爬取亚马逊上的一些商品评论信息。用户首先需要有哪些信誉好的足球投注网站官网,下载八爪鱼客户端并注册、登录。普通用户使用免费版功能即可完成基本的数据采集,也可根据需要自行选择付费会员功能。 电子商务数据采集实训 3.实验内容 接下来我们以亚马逊平台上某商品为例进行商品评论采集。读者在实操过程中也可根据自身需求,灵活更换其他平台数据进行数据采集。采集字段包括:商品标题、图片链接、商品链接、商品价格、商品评分、评论数等(可根据需要对相关字段进行添加或删除)。 在首页单击左上角的“新建”按钮,选择“自定义任务”。 电子商务数据采集实训 3.实验内容 在新建任务界面,选择“手动输入”,输入示例网址并单击“保存设置”按钮(后续可能因平台更新原因导致链接失效,使用时根据需要在亚马逊平台重新进行有哪些信誉好的足球投注网站获得新链接即可)。 电子商务数据采集实训 3.实验内容 系统会自动识别网页内容并提取相关字段,成功识别了列表中的数据、翻页和滚动加载设置,单击“生成采集设置”按钮。 电子商务数据采集实训 3.实验内容 将自动识别出的列表数据和翻页,生成采集流程,方便我们使用和修改。 电子商务数据采集实训 3.实验内容 在“当前页面数据预览”中可对采集规则进行调整与优化,如根据需要删除不需要的字段、编辑字段名称等。 电子商务数据采集实训 3.实验内容 有一些字段,系统无法自动提取到,需要用户手动添加。双击流程图中的“提取列表数据”,进入其设置页面,单击“加号”图标,单击“页面网址”“添加当前时间”和“添加当前网页信息”,完成手动添加字段。 电子商务数据采集实训 3.实验内容 通过以上步骤可以完成基本的数据采集。但亚马逊平台有防采集机制,如需稳定采集大量数据,需对采集规则进行优化。常见的优化方法如下。 (1)设置页面滚动与 Ajax 超时 在亚马逊平台中打开商品评论网页和翻页后,需向下一屏一屏滚动,才能加载出全部评论列表,在八爪鱼中也需进行这样的设置。同时翻页使用了 Ajax 技术,需设置 Ajax 超时。在左侧流程图中双击“打开网页”,进入设置页面。单击“页面打开后”选项,勾选“页面加载后向下滚动”复选框,并设置滚动方式为“向下滚动一屏”,“滚动次数”为 5 次

您可能关注的文档

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档