新媒体数据获取.pptx

1、本文档共46页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;一、政府统计部门;一、政府统计部门;;二、互联网部门及相关专题网站;;三、系统日志采集;;;;;四、Web数据抓取

;;;;;;;;;;采集列表数据

现在有一个豆瓣图书列表的网页：/tag/%E5%B0%8F%E8%AF%B4。

网页上有很多结构相同的图书列表，每个图书列表中有同样的

字段：图书标题、出版信息、评分、评价人数、图书简介等。

想将上述网页上多个列表中的字段，按照网页排列顺序

依次采集下来，保存为Excel等结构化的数据，如下图所示

;（1）输入网址

在首页【输入框】中输入目标网址，点击【开始采集】，八爪鱼自动打开网页。如果自动开始智能识别，可点击【不再自动识别】或【取消识别】。如果已关闭智能识别，可进行接下来的步骤。;（2）建立【循环-提取数据】

●选中页面上1个列表。选中后的列表会被绿色框框起来，同时出现黄色操作提示框，提示我们发现了【子元素】，这里的【子元素】就是列表中的具体字段；;●继续点击【选中全部】，选择【采集数据】，八爪鱼就将列表中的字段都提取下来了框中;●编辑字段

八爪鱼自动为我们提取了列表中的所有字段，可以对这些字段进行删除、修改字段名称等操作。

;●启动采集和导出数据

点击【保存并启动】，选择【启动本地采集】。启动后八爪鱼开始全自动采集数据。

采集完成后，选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。

;练习：;练习：;;进入第一条信息详情页——选中要采集的字段;选中要采集的字段——点击采集——启动本地采集;翻页采集多页数据/information/info/news/news.shtml;;打开流程图

点击循环翻页设置

点击退出循环设置，填入执行次数（翻页次数）;配置字段;第二节新媒体数据获取应用;;;;;;;实训：采集B站【新媒体运营学习】或其它自拟关键词下的如下数据：视频标题、发布时间、

总播放数、总弹幕数、收藏数、视频代码地址、视频介绍、发布者、发布者头像、页面网址等字段。;

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6101050130000123

更多 >