Python爬虫爬取贴吧的帖子内容--688IT编程网

Python爬⾍爬取贴吧的帖⼦内容

最近在看⼀个⼤神的博客，从他那⾥学会了很多关于python爬⾍的知识，其实python如果想⽤在实际应⽤中，你需要了解许多，⽐如正则表达式、引⼊库、过滤字段等等，下⾯不多说，我下⾯的程序是爬取Ubuntu吧的⼀个帖⼦，要是问我为什么选择Ubuntu吧，没为什么，win、mac、linux我都⽤，但毫⽆疑问，我最喜欢的系统就是ubuntu linux，这个系统让我学会了很多东西，从基本命令到shell编程等等，这个系统让我深⼊了解了操作系统，也让我对操作系统的概念有了进⼀步的学习和了解，ok，下⾯就是我的代码，作为参考：

#coding=utf-8

# __author__ = 'Abel'

import urllib

import urllib2

import re

#处理页⾯标签类

class Tool:

#去除img标签,7位长空格

removeImg = repile('<img.*?>| {7}|')

#删除超链接标签

removeAddr = repile('<a.*?>|</a>')

#把换⾏的标签换为\n

replaceLine = repile('<tr>|<div>|</div>|</p>')

#将表格制表<td>替换为\t

replaceTD= repile('<td>')

#把段落开头换为\n加空两格

replacePara = repile('<p.*?>')

#将换⾏符或双换⾏符替换为\n

replaceBR = repile('<br><br>|<br>')

#将其余标签剔除

removeExtraTag = repile('<.*?>')

def replace(self,x):

x = re.veImg,"",x)

x = re.veAddr,"",x)

x = re.placeLine,"\n",x)

x = re.placeTD,"\t",x)

x = re.placePara,"\n ",x)

x = re.placeBR,"\n",x)

x = re.veExtraTag,"",x)

#strip()将前后多余内容删除

return x.strip()

#百度贴吧爬⾍类

class BDTB:

#初始化，传⼊基地址，是否只看楼主的参数

def__init__(self,baseUrl,seeLZ,floorTag):

#base链接地址

self.baseURL = baseUrl

#是否只看楼主

self.seeLZ = '?see_lz='+str(seeLZ)

#HTML标签剔除⼯具类对象

#全局file变量，⽂件写⼊操作对象

self.file = None

#楼层标号，初始为1

self.floor = 1

#默认的标题，如果没有成功获取到标题的话则会⽤这个标题

self.defaultTitle = u"百度贴吧"

#是否写⼊楼分隔符的标记

self.floorTag = floorTag

#传⼊页码，获取该页帖⼦的代码

def getPage(self,pageNum):

try:

#构建URL

url = self.baseURL+ self.seeLZ + '&pn=' + str(pageNum)

request = urllib2.Request(url)

response = urllib2.urlopen(request)

#返回UTF-8格式编码内容

ad().decode('utf-8')

#⽆法连接，报错

except urllib2.URLError, e:

if hasattr(e,"reason"):

print u"连接百度贴吧失败，错误原因",e.reason

return None

#获取帖⼦标题

def getTitle(self,page):

#得到标题的正则表达式

pattern = repile('<h1 class="core_title_txt.*?>(.*?)</h1>',re.S)

result = re.search(pattern,page)

if result:

#如果存在，则返回标题

up(1).strip()

else:

return None

#获取帖⼦⼀共有多少页

def getPageNum(self,page):

#获取帖⼦页数的正则表达式

pattern = repile('<li class="l_reply_num.*?</span>.*?<span.*?>(.*?)</span>',re.S)

result = re.search(pattern,page)

if result:

up(1).strip()

else:

return None

#获取每⼀层楼的内容，传⼊页⾯内容

def getContent(self,page):

#匹配所有楼层的内容

pattern = repile('<div id="post_content_.*?>(.*?)</div>',re.S)

items = re.findall(pattern,page)

contents = []

for item in items:

#将⽂本进⾏去除标签处理，同时在前后加⼊换⾏符

content = "\n"+place(item)+"\n"

contents.de('utf-8'))

return contents

def setFileTitle(self,title):

#如果标题不是为None，即成功获取到标题

if title is not None:

self.file = open(title + ".txt","w+")

else:

self.file = open(self.defaultTitle + ".txt","w+")

def writeData(self,contents):

#向⽂件写⼊每⼀楼的信息

for item in contents:

if self.floorTag == '1':

#楼之间的分隔符

floorLine = "\n" + str(self.floor) + u"-----------------------------------------------------------------------------------------\n" self.file.write(floorLine)

self.file.write(item)

self.floor += 1

def start(self):

indexPage = Page(1)

pageNum = PageNum(indexPage)

title = Title(indexPage)

self.setFileTitle(title)

if pageNum == None:

print"URL已失效，请重试"

return

try:

print"该帖⼦共有" + str(pageNum) + "页"

for i in range(1,int(pageNum)+1):

print"正在写⼊第" + str(i) + "页数据"

page = Page(i)

python 正则表达式空格contents = Content(page)

self.writeData(contents)

#出现写⼊异常

except IOError,e:

print"写⼊异常，原因" + e.message

finally:

print"写⼊任务完成"

print u"请输⼊帖⼦代号"

baseURL = 'tieba.baidu/p/3560761301' + str(raw_input(u'tieba.baidu/p/3560761301')) seeLZ = raw_input("是否只获取楼主发⾔，是输⼊1，否输⼊0\n")

floorTag = raw_input("是否写⼊楼层信息，是输⼊1，否输⼊0\n")

bdtb = BDTB(baseURL,seeLZ,floorTag)

bdtb.start()

程序运⾏结果：

然后打开⼯程⽂件⾥⽣成的⽂件，爬取的内容如下:

是不是很神奇，反正我是感觉很神奇:-)

688IT编程网

Python爬虫爬取贴吧的帖子内容

发表评论

推荐文章

setup中使用 router

vuerouter引入路由与路由配置容易犯错的地方与常见的报错与处理报错_百 ...

react async方法 -回复

react 通过js函数创建组件的标准格式

react hook 父组件调用子组件的方法

热门文章

中级工程师面试答辩问题

教师招聘结构化面试题目及答案

web前端笔试题,面试题,复习题

结构化面试问题

前端面试知识点总结

101个精典面试问题

10大经典英文面试问题(含参考答案,值得收藏)

Flume面试题整理

react函数式组件跨组件传值

面试销售岗位的面试问题技巧自我介绍

关于Vue的常见面试题

「2022」打算跳槽涨薪,必问面试题及答案——VUE3篇

前端开发面试笔试题目

移动应用开发专家面试问题及答案

vue 场景面试题目

reactnative 组件更新的方法

react render() 方法

react题库

2019最新前端面试题-11、兑吧(33问)

react native解压文件方法

最新文章

vuerouter引入路由与路由配置容易犯错的地方与常见的报错与处理报错_百 ...

react async方法 -回复

详解如何使用ReactHooks请求数据并渲染

react context hook跨页面调用方法

react-hook-form 原理

reacthook的使用原则

标签列表