Python网络爬虫项目式教程 课后习题及答案汇总 钱游 项目1--7(1).doc

Python网络爬虫项目式教程 课后习题及答案汇总 钱游 项目1--7(1).doc

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

复习题

一、单项选择题

1、以下哪些是爬虫技术可能存在风险(D)

A、大量占用爬去网站的资源

B、网站敏感信息的获取造成的不良后果

C、违背网站爬去设置

D、以上都是

2、下列不是urllib库的四大模块的是(C)

A、urllib.requestB、urllib.error

C、urllib.session

D、urllib.robotparser

二、判断题

1、urllib是python内置的处理HTTP请求的库。(对)

2、urllib的request模块可以非常方便地抓取URL内容,可以通过发送一个GET

请求,获取到网页的内容。(对)

3、MongoDB是关系型数据库。(错)

4、爬取网页数据的时候必须遵守robots.txt协议。(错)

5、定期更改网站结构进行可以一定程度上防止网页数据被爬取。(对)

三、简答题

1、请简要回答什么网络爬虫。

网络爬虫,又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动请

求万维网网站并提取网络数据的程序或脚本。

2、请回答开发和使用网络爬虫的好处。

爬虫的出现在一定的程度上代替了手工访问网页,能够实现自动化采集互联

网的数据,以更高地效率去利用互联网中的有效信息。

复习题

一、单项选择题

1、HTTP协议的全称是(D)

A、文件传输协议

B、邮件传输协议

C、远程登录协议

D、超文本传输协议

2、正则表达式R+[0-9]{3},能匹配出以下哪个字符串(D)

A、R3B、039C、R09D、RR093

3、以下正则表达式中,属于非贪婪匹配,且允许出现0次的是(C)

A、.B、.*C、.*?D、.+?

4、下列选项中,发起HTTP请求成功后,服务器响应的状态码是(A)

A、200B、303C、404D、500

二、判断题

1、在python中,一般我们会使用re模块来实现Python正则表达式的功能。(对)2、re.search(pattern,string,flags=0)函数是扫描整个整个字符串,并返回第

一个匹配成功的。(对)

3、re.findall(pattern,string,flags=0)函数是扫描整个字符串,并将结果以

字典形式返回。(错)

4、sub(pattern,repl,string,count=0,flags=0)函数用于字符串中的匹配

项,该函数将匹配上的字符串替换成指定的字符串,返回新的字符串。(对)

5、re.I表示做多行匹配.(错)

三、编程题

1、拆分字符串,将下面诗中的每一句话分别提取出来。

shici=李白乘舟将欲行,忽闻岸上踏歌声。桃花潭水深千尺,不及汪伦送我情。’

参考代码:

shici=李白乘舟将欲行,忽闻岸上踏歌声。桃花潭水深千尺,不及汪伦送我情。

result=shicisplit(r,)

result=shici.split(r。)

foriteminresult:

print(item)

2、提取用户输入数据中的数据(数值包含正数和负数在内的实数)并求和,例

如字符串为:str1=-6.94hello87nice100bye,则和为-6.94+87+100=180.06,请编写程

序实现。

importre

#str1=-3.14good87nice1qbye

nums=re.findall(r-?\d+\.?\d*,strI)

result=sum([float(x)forxinnums])

print(result)

复习题

一、单项选择题

1、关于HTTP相关协议,以下说法错误的是(C)

A、HTTPS在HTTP的基础上加入了SSL协议

B、HTTP全过程分为请求和响应两个阶段

C、HTTP响应状态码404代表服务器正常响应

D、HTTP是应用层协议

2、用HTML标记语言编写一个简单的网页,网页最基本的结构是(D)

A、htmlhead…/headframe…/frame/html

B、htmltitle…/titlebody…/body/html

C、htmltitle…/titleframe…/frame/html

D、htmlhead…/headbody…/body/html

3、下面哪个不是HTML标签名称(D)

A、link

B、table

C、form

D、List

4、如果当前网页请求的url是

/test/images/abc.jpg,那么执行

request.url.split(/)[-1]代码的结果是(A)

A

文档评论(0)

zhanghaoyu888 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档