Python使用Scrapy框架爬取数据存入CSV文件--688IT编程网

1. Scrapy框架

Scrapy是python下实现爬虫功能的框架，能够将数据解析、数据处理、数据存储合为一体功能的爬虫框架。

2. Scrapy安装

1. 安装依赖包

2. 安装scrapy

注意事项：scrapy和twisted存在兼容性问题，如果安装twisted版本过高，运行scrapy startproject project_name 的时候会提示报错，安装twisted==13.1.0即可。

3. 基于Scrapy爬取数据并存入到CSVscrapy分布式爬虫

3.1. 爬虫目标，获取简书中热门专题的数据信息，站点为

www.jianshu/recommendations/collections，点击"热门"是我们需要爬取的站点，该站点使用了AJAX 异步加载技术，通过F12键——Network——XHR，并翻页获取到页面URL地址为

www.jianshu/recommendations/collections?page=2&order_by=hot，通过修改page=后面的数值即可访问多页的数据，如下图：

3.2. 爬取内容

需要爬取专题的内容包括：专题内容、专题描述、收录文章数、关注人数，Scrapy使用xpath来清洗所需的数据，编写爬虫过程中可以手动通过lxml中的xpath获取数据，确认无误后再将其写入到scrapy代码中，区别点在于，scrapy需要使用extract()函数才能将数据提取出来。

3.3 创建爬虫项目

3.4 代码内容

1. items.py代码内容，定义需要爬取数据字段

2. piders/jianshu_hot_topic_spider.py代码内容，实现数据获取的代码逻辑，通过xpath实现

3. pipelines文件内容，定义数据存储的方式，此处定义数据存储的逻辑，可以将数据存储载MySQL数据库，MongoDB数据库，文件，CSV，Excel等存储介质中，如下以存储载CSV为例：

4. 修改settings文件，

3.5 运行scrapy爬虫

返回到项目scrapy项目创建所在目录，运行scrapy crawl spider_name即可，如下：

查看/root/zhuanti.csv中的数据，即可实现。

4. 遇到的问题总结

1. twisted版本不见容，安装过新的版本导致，安装Twisted (13.1.0)即可

2. 中文数据无法写入，提示'ascii'错误，通过设置python的encoding为utf即可，如下：

3. 爬虫无法获取站点数据，由于headers导致，载settings.py文件中添加USER_AGENT变量，如：

USER_AGENT="Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"

Scrapy使用过程中可能会遇到结果执行失败或者结果执行不符合预期，其现实的logs非常详细，通过观

察日志内容，并结合代码+网上搜索资料即可解决。

688IT编程网

Python使用Scrapy框架爬取数据存入CSV文件

发表评论

推荐文章

createbrowserrouter 案例

react前端选择题

vue路由面试题

router中的path和name的定义

setup中使用 router

热门文章

react hooks antd tabs 顺序返回

技术人员的面试流程

2011年6月20日吉林省公务员考试面试真题试卷(题后含答案及解析)

71道经典Android面试题和答案,重要知识点都包含了

职业院校教师招聘结构化面试试题及答案

4社区工作者面试题

三幅船员面试英语及面试问题总结

三副(船员面试英语)

CRA面试问题及答案

80道前端面试经典选择题

外包人员面试题目及答案

vue面试

财务经理面试问题及答案

技术支持工程师面试试题

最全的Vue面试题+详解答案

react 事件机制面试题

面试题vue组件封装思路

研发工程师面试笔试题目

vuex面试题

react 循环渲染 echarts 类组件例子

最新文章

createbrowserrouter 案例

react前端选择题

router中的path和name的定义

setup中使用 router

react 通过js函数创建组件的标准格式

react hook 父组件调用子组件的方法

标签列表