《Python试卷(困难)》试卷
总分
题型
单选题
判断题
填空题
简答题
题分
得分
得分
单选题(每题2分,共计40分)
1.当Scrapy下载器完成请求,传递响应交给引擎时会调用()方法。
A、process_request()
B、process_response()
C、open_spider()
D、close_spider()。
2.下列表达式中,用于表示选取某属性节点的是()。
A、body
B、/
C、//
D、@
3.下列选项中,用作给某个请求添加请求报头的方法是()。
A、add_header
B、insert_header
C、header
D、add
4.下列请求方法中,用于提交表单或者上传文件的是()。
A、PUT
B、GET
C、HEAD
D、POST。
5.如果没有明确选择解析器,那么BeatutifulSoup对象一般选取解析器的顺序为()。
A、Python标准库,lxml,html5lib
B、Python标准库,html5lib,lxml
C、lxml,html5lib,Python标准库
D、lxml,Python标准库,html5lib
6.下列属性中,用于表示Response类对象返回的状态码的是()。
A、content
B、encoding
C、text
D、status_code
7.下列设置管道类的代码中,哪个管道的优先级最高?()。
A、'mySpider.pipelines.OnePipeline': 100
B、'mySpider.pipelines.TwoPipeline': 300
C、'mySpider.pipelines.ThreePipeline': 500
D、'mySpider.pipelines.FourPipeline': 700。
8.下列方法中,用于创建并启动协程的是()。
A、spawn()
B、joinall()
C、start()
D、join()。
9.阅读下面的程序:
from bs4 import BeautifulSoup
html_doc = """
<html>
<body>
<a>这是段落。</a>
<b>这是段落。</b>
<p>这是段落。</p>
<p>段落元素由 p 标签定义。</p>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'lxml')
result = soup.find_all(["a", "b"])
print(result)
运行上述程序,最终输出的结果为()。
A、[<a>这是段落</a>]
B、[<b>这是段落</b>]
C、[]
D、[<a>这是段落</a>, <b>这是段落</b>]
10.请阅读下面一段程序:
ITEM_PIPELINES = {
'TEST.pipelines.TestCSVPipeline':200,
'TEST.pipelines.TestRedisPipeline':300,
'TEST.pipelines.TestMongoPipeline':400,
'scrapy_redis.pipelines.RedisPipeline':900
}
上述启动了自定义管道组件,其中哪个管道会优先执行?()
A、TestCSVPipeline
B、TestRedisPipeline
C、TestMongoPipeline
D、RedisPipeline。
11.阅读下面的程序:
from queue import Queue
queue_object = Queue(5)
print((timeout=1))
运行程序,其最终输出的结果为()。
A、0
B、False
C、没有输出
D、运行产生Empty异常。
12.下列选项中,被称为主题网络爬虫的是()。
A、增量式网络爬虫
B、通用网络爬虫
C、深层爬虫
D、聚焦网络爬虫
13.浏览器对象调用()方法可以往网页的输入框中输入文字。
A、get()
B、save_screenshot()
C、send_keys()
D、find_element_by_id()
14.请阅读下列一段示例程序:
quest
response = quest.urlopen('')
de())
若程序运行成功,那么输出的结果可能为()。
A、500
B、400
C、300
D、200
15.下列代码中,用于关闭PhantomJS对象中当前页面的是()。
A、driver.cancel()
B、it()
C、driver.quit()
D、driver.close()
16.下列选项中,可以作为JSON中的对象的是()。
A、"name": "Jane"
B、{18}
C、{ "age":18}
D、["Python", "Java"]
17.下列函数中,用于对URL进行编码的是()。
A、encode
B、urlencode
C、unquote
D、decode
18.下列选项中,用于在文件中描述搜索引擎名字的是()。
A、User-agent
B、Disallow
C、Allow
D、accept
19.下列PyMongo库的类中,哪个可以用来访问数据库?()
A、MongoClient
B、Cursor
C、Collection
D、DataBase
20.下列选项中,用于约束爬虫的搜索范围的属性是()。
python正则表达式判断
A、name
B、parse
C、start_urls
D、allow_domains。
得分
判断题(对的打“√”,错的打“×”;每题1分,共20分)
21.无论是搜索引擎,还是个人或单位获取目标数据,都需要从公开网站上爬取大量数据。( )
22.如果要让网站无法识别请求的爬虫身份,则一定要禁用Cookies的功能。( )
23.如果要在Windows系统下使用Tesseract,则必须先安装Tesseract-OCR引擎。( )
24.Selenium不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。( )
25.互联网上每个文件都有一个唯一的URL。( )
26.要想在代码里面使用PhantomJS,只能通过显式地指定文件所在的目录这种方式。( )