python爬虫代码-23个Python爬虫开源项目代码--688IT编程网

python爬⾍代码-23个Python爬⾍开源项⽬代码

今天为⼤家整理了23个Python爬⾍项⽬。整理的原因是，爬⾍⼊门简单快速，也⾮常适合新⼊门的⼩伙伴培养信⼼。所有链接指向GitHub，祝⼤家玩的愉快

1、WechatSogou [1]– 爬⾍。

基于搜狗搜索的爬⾍接⼝，可以扩展成基于搜狗搜索的爬⾍，返回结果是列表，每⼀项均是具体信息字典。

2、DouBanSpider [2]– ⾖瓣读书爬⾍。bootstrap项目

可以爬下⾖瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可⽅便⼤家筛选搜罗，⽐如筛选评价⼈数>1000的⾼分书籍；可依据不同的主题存储到Excel不同的Sheet ，采⽤User Agent伪装为浏览器进⾏爬取，并加⼊随机延时来更好的模仿浏览器⾏为，避免爬⾍被封。

3、zhihu_spider [3]– 知乎爬⾍。

此项⽬的功能是爬取知乎⽤户信息以及⼈际拓扑关系，爬⾍框架使⽤scrapy，数据存储使⽤mongo

4、bilibili-user [4]– Bilibili⽤户爬⾍。

总数据数：20119918，抓取字段：⽤户id，昵称，性别，头像，等级，经验值，粉丝数，⽣⽇，地址，注册时间，签名，等级与经验值等。抓取之后⽣成B站⽤户数据报告。

5、SinaSpider [5]– 新浪微博爬⾍。

主要爬取新浪微博⽤户的个⼈信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进⾏登录，可通过多账号登录来防⽌新浪的反扒。主要使⽤ scrapy 爬⾍框架。

6、distribute_crawler [6]– ⼩说下载分布式爬⾍。

使⽤scrapy,Redis, MongoDB,graphite实现的⼀个分布式⽹络爬⾍，底层存储MongoDB集，分布式使⽤Redis实现，爬⾍状态显⽰使⽤graphite实现，主要针对⼀个⼩说站点。

7、CnkiSpider [7]– 中国知⽹爬⾍。

设置检索条件后，执⾏src/CnkiSpider.py抓取数据，抓取数据存储在/data⽬录下，每个数据⽂件的第⼀⾏为字段名称。

8、LianJiaSpider [8]– 链家⽹爬⾍。

爬取北京地区链家历年⼆⼿房成交记录。涵盖链家爬⾍⼀⽂的全部代码，包括链家模拟登录代码。

9、scrapy_jingdong [9]– 京东爬⾍。

基于scrapy的京东⽹站爬⾍，保存格式为csv。

10、QQ-Groups-Spider [10]– QQ 爬⾍。

批量抓取 QQ 信息，包括名称、号、⼈数、主、简介等内容，最终⽣成 XLS(X) / CSV 结果⽂件。

11、wooyun_public[11]-乌云爬⾍。

乌云公开漏洞、知识库爬⾍和搜索。全部公开漏洞的列表和每个漏洞的⽂本内容存在MongoDB中，⼤概约2G内容；如果整站爬全部⽂本和图⽚作为离线查询，⼤概需要10G空间、2⼩时（10M电信带宽）；爬取全部知识库，总共约500M空间。漏洞搜索使⽤了Flask作为web server，bootstrap作为前端。

12、spider[12]– hao123⽹站爬⾍。

以hao123为⼊⼝页⾯，滚动爬取外链，收集⽹址，并记录⽹址上的内链和外链数⽬，记录title等信息，windows7 32位上测试，⽬前每24个⼩时，可收集数据为10万左右

13、findtrip [13]– 机票爬⾍（去哪⼉和携程⽹）。

Findtrip是⼀个基于Scrapy的机票爬⾍，⽬前整合了国内两⼤机票⽹站（去哪⼉ + 携程）。

14、163spider [14] – 基于requests、MySQLdb、torndb的⽹易客户端内容爬⾍

15、doubanspiders[15]– ⾖瓣电影、书籍、⼩组、相册、东西等爬⾍集

16、QQSpider [16]– QQ空间爬⾍，包括⽇志、说说、个⼈信息等，⼀天可抓取 400 万条数据。

17、baidu-music-spider [17]– 百度mp3全站爬⾍，使⽤redis⽀持断点续传。

18、tbcrawler[18]– 淘宝和天猫的爬⾍，可以根据搜索关键词，物品id来抓去页⾯的信息，数据存储在mongodb。

stockholm [19]– ⼀个股票数据（沪深）爬⾍和选股策略测试框架。根据选定的⽇期范围抓19、取所有沪深两市股票的⾏情数据。⽀持使⽤表达式定义选股策略。⽀持多线程处理。保存数据到JSON⽂件、CSV⽂件。

20、BaiduyunSpider[20]-百度云盘爬⾍。

21、Spider[21]-社交数据爬⾍。⽀持微博，知乎,⾖瓣。

22、proxy pool[22]-Python爬⾍代理IP池(proxy pool)。

23、music-163[23]-爬取⽹易云⾳乐所有歌曲的评论。

来源：全球⼈⼯智能

作者：SFLYQ

688IT编程网

python爬虫代码-23个Python爬虫开源项目代码

发表评论

推荐文章

Linux怎么直接执行PHP脚本文件

php文件写入或追加数据

php中实现文件上传的函数

php文件上传类程序代码

413 request entity too large 解决方法 -回复

热门文章

php中用来导入其他文件的语句

php获取文件后缀名的方法

创建php文件方法

国家电网公司电子商务平台常见问题

【2018-2019】别克英朗说明书-实用word文档 (12页)

诺基亚E71常见问题以及解决方法

HXD3型电力机车故障应急处理

卫星电视中星9号解密方法及节目参数,长期可用

硬盘U盘等启动奶瓶beini详细步骤教程

BT3使用教程

破解网通铁通电信封路由器的几种方法

手把手教你WPA2加密无线网络

教你如何破解搜索到的无线网络

Get清风OD入门系列图文详细教程、破解做辅助起步

java rar破解原理

同余方程在密码学中的应用与破解

无限网络解码

winrar破解方法

macOS终端中的文件加密和解密技巧

rar加密原理

最新文章

php中实现文件上传的函数

413 request entity too large 解决方法 -回复

php实现编辑和保存文件的方法

php 配置文件的用法 -回复

突破php网站上传文件大小限制

php(实现url重写)

标签列表