新媒体数据获取.pptx

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;一、政府统计部门;一、政府统计部门;;二、互联网部门及相关专题网站;;三、系统日志采集;;;;;四、Web数据抓取

;;;;;;;;;;采集列表数据

现在有一个豆瓣图书列表的网页:/tag/%E5%B0%8F%E8%AF%B4。

网页上有很多结构相同的图书列表,每个图书列表中有同样的

字段:图书标题、出版信息、评分、评价人数、图书简介等。

想将上述网页上多个列表中的字段,按照网页排列顺序

依次采集下来,保存为Excel等结构化的数据,如下图所示

;(1)输入网址

在首页【输入框】中输入目标网址,点击【开始采集】,八爪鱼自动打开网页。如果自动开始智能识别,可点击【不再自动识别】或【取消识别】。如果已关闭智能识别,可进行接下来的步骤。;(2)建立【循环-提取数据】

●选中页面上1个列表。选中后的列表会被绿色框框起来,同时出现黄色操作提示框,提示我们发现了【子元素】,这里的【子元素】就是列表中的具体字段;;●继续点击【选中全部】,选择【采集数据】,八爪鱼就将列表中的字段都提取下来了框中;●编辑字段

八爪鱼自动为我们提取了列表中的所有字段,可以对这些字段进行删除、修改字段名称等操作。

;●启动采集和导出数据

点击【保存并启动】,选择【启动本地采集】。启动后八爪鱼开始全自动采集数据。

采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。

;练习:;练习:;;进入第一条信息详情页——选中要采集的字段;选中要采集的字段——点击采集——启动本地采集;翻页采集多页数据/information/info/news/news.shtml;;打开流程图

点击循环翻页设置

点击退出循环设置,填入执行次数(翻页次数);配置字段;第二节新媒体数据获取应用;;;;;;;实训:采集B站【新媒体运营学习】或其它自拟关键词下的如下数据:视频标题、发布时间、

总播放数、总弹幕数、收藏数、视频代码地址、视频介绍、发布者、发布者头像、页面网址等字段。;

您可能关注的文档

文档评论(0)

方世玉 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6101050130000123

1亿VIP精品文档

相关文档