下载中....
bs4.BeautifulSoup.find_all( name, attrs, recursive, text, limit, **kwargs )
传⼊html⽂本,选择parser(如'html.parser')之后便可以实例化⼀个BeautifulSoup对象。之后便可以使⽤ find_all(tag_name) 来寻 所有的 tag_name标签的内容。返回⼀个列表,是获得的内容。
4. selenium
⽤于⾃动化Web应⽤程序以进⾏测试,可模拟⼈⼯对浏览器进⾏各种各样的操作,但⼀定要下载与⾃⼰浏览器相同版本的driver。
1. selenium.webdriver
⽤于实例化⼀个浏览器类。我使⽤的是Chrome浏览器,所以在使⽤这个库之前需要安装 chromedriver ,并且必须和⾃⼰的浏览器的版本相同。如果你要下安装其他的driver,请转⾄官⽹。
2. selenium.webdriver.ActionChains
⽤于模拟执⾏链式⾏为的库,可以模拟⿏标键盘对浏览器的⾏为。 (缺陷:只能对html进⾏模拟键⿏的⾏为,⽆法进⾏系统的操作)
5. w in32c lipbo a r d
Windows系统下,Python可以使⽤此库来打开剪切板和关闭剪切板并获取其内容。 这也是为何我的程序只能在
windows下运⾏的原因。
学python看谁的视频比较好
6. pya uto gui
⽤于⾃动化对GUI进⾏操作,对⽐ActionChains的优势在于: pyautogui 可以操作浏览器上系统的操作。
缺陷: ⿏标的焦点必须停留在要操作的窗⼝,否则,将会有意想不到的结果发⽣
⼆. 思路解析
(注:下⾯出现的代码并不完整,完整的代码请到该项⽬的我的github仓库)
1. 利⽤A PI类来获取接⼝
利⽤我所知的⼀个接⼝(页⾯内有其他的接⼝的转换),使⽤pyautogui模拟⿏标点击,html内才会显
⽰所有的接⼝,爬下来,以作备⽤。