python网络爬虫书籍推荐python及常⽤库安装⽅法
python库安装⽅法:
⽅法⼀:setpu.py
1.下载库压缩包,解压,记录下路径:*:/**/……/
2.运⾏cmd,切换到*:/**/……/⽬录下
3.运⾏setup.py build
4.然后输⼊python,进⼊python模块,验证是否安装成功
⽅法⼆:
1.Win + R 打开运⾏窗⼝,输⼊cmd回车
2.到pip安装路径——x:\Python xx\Scripts
3. 在命令⾏中切换⾄该⽬录cd x:\Python xx\Scripts
4.输⼊ pip install ***(库名称)
常⽤库⼤全:
1.os——通过python实现操作系统中的功能:新建⽂件夹、指定路径等
2.爬取⽹页
2.1 urllib——爬取⽹页
2.2 bs4——对⽹页按照标签提取信息(需下载)
2.3 re——(Regular Expression 正则表达式)
2.5 smtplib——收发邮件
2.6 Selenium 库是⼀个在WebDriver 上调⽤的API。WebDriver 有点⼉像可以加载⽹站的浏览器,但是它也可以像BeautifulSoup 对象⼀样⽤来查页⾯元素,与页⾯上的元素进⾏交互
(发送⽂本、点击等),以及执⾏其他动作来运⾏⽹络爬⾍。
2.7 collections ——数据结构
2.8 import random
PhantomJS 是⼀个“⽆头”(headless)浏览器。它会把⽹站加载到内存并执⾏页⾯上的JavaScript,但是它不会向⽤户展⽰⽹页的图形界⾯。把Selenium 和PhantomJS 结合在⼀
起,就可以运⾏⼀个⾮常强⼤的⽹络爬⾍了,可以处理cookie、JavaScrip、header,以及任何你需要做的事情。
3.数据存储
3.1 pymysql——python存储数据⾄mysql数据库
3.2 xlrd,xlwt——将数据写⼊excel的操作
4.⽂件读取
4.2 ython-docx 库——持创建新⽂档和读取⼀些基本的⽂件数据,如⽂件⼤⼩和⽂件标题,不⽀持正⽂读取。
5.算法
5.1 NLTK——⾃然语⾔处理      统计分析、词义分析——书籍:Natural Language Processing with Python
5.2 Pillow 和Tesseract——图像识别与⽂字处理
5.3 NumPy——因为NumPy 可以⽤数学⽅法把图⽚表⽰成巨⼤的像素数组,所以它可以流畅地配合Tesseract 完成任务。
6.JavaScript库
6.1 jQuery
6.2 Google Analytics
7.GUI库
7.1 tkinter——python3