Python爬虫Scrapy测试--688IT编程网

Python爬⾍Scrapy测试# -*- coding:utf-8 -*-

import urllib

import urllib2

import re

import thread

import time

#糗事百科爬⾍类python正则表达式爬虫

class QSBK:

#初始化⽅法，定义⼀些变量

def __init__(self):

self.pageIndex = 1

self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

#初始化headers

self.headers = { 'User-Agent' : self.user_agent }

#存放段⼦的变量，每⼀个元素是每⼀页的段⼦们

self.stories = []

#存放程序是否继续运⾏的变量

#传⼊某⼀页的索引获得页⾯代码

def getPage(self,pageIndex):

try:

url = 'www.qiushibaike/hot/page/' + str(pageIndex)

#构建请求的request

request = urllib2.Request(url,headers = self.headers)

#利⽤urlopen获取页⾯代码

response = urllib2.urlopen(request)

#将页⾯转化为UTF-8编码

pageCode = ad().decode('utf-8')

return pageCode

except urllib2.URLError, e:

if hasattr(e,"reason"):

print u"连接糗事百科失败，错误原因",e.reason

return None

#传⼊某⼀页代码，返回本页不带图⽚的段⼦列表

def getPageItems(self,pageIndex):

pageCode = Page(pageIndex)

if not pageCode:

print "页⾯加载失败...."

return None

pattern = repile('<div.*?author.*?>.*?<a.*?<img.*?</a>.*?<a.*?<h2>(.*?)</h2>.*?</div>.*?<div.*?' + 'content">(.*?)</div>', re.S)

items = re.findall(pattern,pageCode)

#⽤来存储每页的段⼦们

pageStories = []

#遍历正则表达式匹配的信息

for item in items:

#是否含有图⽚

haveImg = re.search("img",item[1])

#如果不含有图⽚，把它加⼊list中

if not haveImg:

replaceBR = repile('<br/>')

text = re.sub(replaceBR,"\n",item[1])

#item[0]是⼀个段⼦的发布者，item[1]是内容，item[2]是发布时间,item[4]是点赞数

pageStories.append([item[0].strip(),text.strip()])

return pageStories

#加载并提取页⾯的内容，加⼊到列表中

def loadPage(self):

#如果当前未看的页数少于2页，则加载新⼀页

able == True:

if len(self.stories) < 2:

#获取新⼀页

pageStories = PageItems(self.pageIndex)

#将该页的段⼦存放到全局list中

if pageStories:

self.stories.append(pageStories)

#获取完之后页码索引加⼀，表⽰下次读取下⼀页

self.pageIndex += 1

#调⽤该⽅法，每次敲回车打印输出⼀个段⼦

def getOneStory(self,pageStories,page):

#遍历⼀页的段⼦

for story in pageStories:

#等待⽤户输⼊

input = raw_input()

#每当输⼊回车⼀次，判断⼀下是否要加载新页⾯

self.loadPage()

#如果输⼊Q则程序结束

if input == "Q":

return

print u"第%d页\t发布⼈:%s\t内容:%s" %(page,story[0],story[1]) #开始⽅法

def start(self):

print u"正在读取糗事百科，按回车查看新段⼦，Q退出"

#使变量为True，程序可以正常运⾏

#先加载⼀页内容

self.loadPage()

#局部变量，控制当前读到了第⼏页

nowPage = 0

able:

if len(self.stories)>0:

#从全局list中获取⼀页的段⼦

pageStories = self.stories[0]

#当前读到的页数加⼀

nowPage += 1

#将全局list中第⼀个元素删除，因为已经取出

del self.stories[0]

#输出该页的段⼦

spider = QSBK()

spider.start()

688IT编程网

Python爬虫Scrapy测试

发表评论

推荐文章

hooks父组件调用子组件高阶函数中的方法 -回复

react hooks createcontext

reacthook的使用原则

react hooks实现mount的方法

react hooks父组件调用子组件中方法

热门文章

三副(船员面试英语)

CRA面试问题及答案

80道前端面试经典选择题

外包人员面试题目及答案

vue面试

财务经理面试问题及答案

技术支持工程师面试试题

最全的Vue面试题+详解答案

react 事件机制面试题

面试题vue组件封装思路

研发工程师面试笔试题目

vuex面试题

react 循环渲染 echarts 类组件例子

关于面试问题的英文作文大纲

税务系统公开选拔领导干部和竞争上岗面试题分析

军队文职面试真题

三副面试问题及参考答案

函数式组件和类组件的区别

唯品会技术岗面试5

react的keepalive的原理

最新文章

hooks父组件调用子组件高阶函数中的方法 -回复

react hooks createcontext

如何使用classnames模块库为react动态添加class类样式

usestate react typescript

React开发中的状态管理技巧

react hooks antd tabs 顺序返回

标签列表