南开大学2021年2月《网络爬虫与信息提取》作业考核试题及答案(参考)
1. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。(  )
A.正确
B.错误
参考答案:A
2. MongoDB是一个关系数据库产品。(  )
A.正确
B.错误
参考答案:B
3. Charles和Chrome开发者工具相比,只是多了一个搜索功能。(  )
A.正确
B.错误
参考答案:B
4. Python操作CSV文件可通过(  )容器的方式操作单元格。
A.列表
B.元组
C.字典
D.集合
参考答案:C
5. 网络爬虫的用途有(  )。
A.收集数据
B.尽职调查
C.提高流量
D.攻击服务器
参考答案:ABC
6. Redis若要进入交互环境,需要打开终端输入(  )
Redis若要进入交互环境,需要打开终端输入(  )
参考答案:A
7. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider 的第二个参数直接输入"163"就可以了。(  )
当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入"163"就可以了。(  )
A.正确
B.错误
参考答案:B
8. 用Xpathh获取第二个div标签应该是(  )
用Xpathh获取第二个div标签应该是(  )
A.dvi(1)
B.div(2)
C.div[1]
D.div[2]
参考答案:D
9. 可以通过(  )绕过网站登录。
A.session
D.localstorage
参考答案:B
10. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。(  )
A.正确
B.错误
参考答案:A
11. 常用的会话跟踪技术是(  )
A.session
D.localstorage
参考答案:AB
12. Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。(  )
python正则表达式爬虫T.对
F.错
参考答案:T
13. Python中(  )容器有推导式。
Python中(  )容器有推导式。
A.列表
B.元组
C.字典
D.集合
参考答案:ACD
14. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。(  )
A.正确
B.错误
参考答案:A
15. 如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。(  )
A.正确
B.错误
参考答案:A
16. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。(  )
A.正确
B.错误
参考答案:B
17. 下面关于Charles使用说法错误的是(  )
A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰
B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息
C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过Charles
D.Charles无法支持计算机上除了浏览器之外的其他软件
参考答案:D
18. 在请求头中设置User-Agent即可正常请求网站。(  )
在请求头中设置User-Agent即可正常请求网站。(  )
A.正确
B.错误
参考答案:B
19. 以下哪些方法属于Python写CSV文件的方法?(  )
A.writeheaders
B.writeheader
C.writerrows
D.writerow
参考答案:ACD
20. Python中字符串切片以后的结果还是字符串。(  )
Python中字符串切片以后的结果还是字符串。(  )
A.正确
B.错误
参考答案:A
21. BS4可以用来从(  )中提取数据
A.HTML
B.XML
C.数据库
D.JSON
参考答案:AB
22. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源。(  )
A.正确
B.错误
参考答案:B
23. HTTP常用状态码表明服务器上没有请求的资源的是(  )
A.500
B.503
C.403
D.404
参考答案:D
24. 以下HTTP状态码表示服务器没有正常返回结果的是(  )。
A.200
B.301
C.404
D.500
参考答案:BCD