《Python获取数据》教案
【教学分析】
课标要求学生能根据需要,选择或编写合适的工具来采集数据。通过这节课的学习,学生能掌握获取网页内容的request库和解析网页内容的beautifulsoup库的安装和使用,能掌握获取网页内容的方法和解析网页标签内容的方法,认识到网上数据的爬取应该遵循的法律和规范。
【学情分析】
本节课的授课对象是高一学生,已经学习了python的基本语法和python第三方库的安装和使用。但是对如何从网页中爬取信息非常陌生,不具备网页的基础知识,因此将教学的重点放在数据获取的步骤理解,对于不同网页数据爬取的实现方法让有能力的同学进行课外扩展。
【教学目标】
1.针对不同网页上需要的信息组织方式不同,能比较不同的信息源,确定合理获取信息的方式。(信息意识)
2.在认识数据爬取方法中,能采用计算机科学领域的思想和方法界定问题,建立数据爬取的结构模型(计算思维)
3.能根据数据爬取的需要,在Python第三方库的安装过程,熟悉数字化学习环境并掌握数字化学习方法,认识数字化学习的优势和困难。(数字化学习和创新)
4.在解决实际问题的过程中,具备信息安全意识,积极维护他人的合法权益和公共信息安全(信息社会责任)
【教学重点】
1.认识通过python获取数据的流程。
2.认识requests库和beautifulsoup库在获取网页数据中起到的作用。
【教学难点】
1.根据网页的源代码设计获取网页内容的方法。
【教学过程】
学python需要什么
教学环节
教师活动
学生活动
设计意图
激趣引课
在日常生活中,我们有许多东西希望可以从网上获取。比如网站上关于某个主题的图片一次性下载下来。比如一类商品在不同淘宝店铺的价格。比如某只股票每周的价格。你们有什么信息想要获取的呢?
教师分析学生想要获取信息的途径是否方便,耗时是否比较小。提出如果我们用Python程序获取信息能够更加的快捷方便。
学生列举想要获取的信息,感知网上资源丰富多样,能高效获取数据非常重要。
学生通过主动举例激发内心对信息获取的渴望,且教师列举的例子都可以通过mooc上的视频教程实行,有利于学生扩展学习
带领学生安装获取网页数据的requests库和解析网页数据的BeautifulSoup库
学生操作实践,查看自己想要爬取网页的源代码。告知学生使用爬虫可以取代浏览器获得网页的数据。
一、数据爬取的方法和流程
1.教师讲解用户从服务器获得数据的原理。
演示通过requests库中的get方法获取网页内容并将其打印的方法。教师讲解解析语句。
布置任务:学生将自己希望的网页源代码通过python打印。
2.在爬取过程中发现问题,解决问题,展示部分同学爬取的网页源代码出现乱码。
告知学生乱码的出现是因为编码方式有误。引入语句讲根据内容猜想出来的编码方式给它。。
二、爬取数据解析
使用requests库爬取的是整个网页的html数据,我们有时候需要提取网页中我们想要的数据时需要解析html文档,这时候用到的第三方库我们叫它beautifulsoup库。利用bs4的方法可以熬制一锅汤给soup变量,这样soup就可以解析网页各个由尖括号的标签。soup可以调用find方法到存放数据的表格,并且直接定位到表格的分值(孩子)节点tr,可以将每一个到的td放在tds变量后打印出来
1.学生理解python可以取代浏览器,当输入网址时,能返回网页的源代码。理解python通过requests库获取网页内容的方法。
2.学生爬取网页,并将爬取网页时遇到的问题反馈给老师。在教师的讲解下学生了解爬取数据的时候需要注意数据 的编码方式。
3.学生认识网页上对内容是以标签树的形势组织起来的。
4.学生理解利用beautiful库解析获得网页某标签中内容的方法。
学生通过ppt演示理解python通过第三方库获取网页内容的方法以及解析网页内容的方法。
通过实践操作体验数据爬取的过程。
数据爬取“盗亦有道”
教师提问爬取是可以毫无限制的进行的吗?
引导学生理解网站服务器接收的访问请求是有限制的。
学生回答一些重要的网站无法爬取,因为侵犯了网站的权限。
学生认识到对此访问数据可能会给网站的服务器造成负担。
通过数据爬取盗亦有道的探索可以帮助学生建立信息社会责任素养,能理解信息规范性的合理。
课堂小结
完成当堂练习,总结我们这节课认识了两个库,一个是获取网页内容,一个是根据标签树解析网页内容。当我们想要从网页上爬取需要的信息需要调用这两个库中的方法。
学生回忆总结,认识网上数据爬取的主要方法。
认识python第三方库在封装方法实现各个功能上的优越性
总结、提升