教案首页
课程名称数据标注计划学时  2
授课章节第2章数据的来龙去脉
1.1 数据的采集 1.2 数据的预处理1.3 数据的标注 1.4 数据的分析1.5 数据的可视化
教学目的和要求:
主要讲述了人工智能发展有三个要素:计算力(机器)、模型(算法)、数据,现在前两个要素的发展速度很快,尤其是有监督的机器学习,需要提前将数据进行标注,离开大量标准数据,有监督学习算法将失去意义。
教学基本内容:
1 数和数据的
2 数据采集
3 数据预处理
4 标注数据
5 数据分析与应用
6 数据可视化
教学重点和难点:
爬虫程序算法、各种类型的标注文件格式的解析。
授课方式、方法和手段:
传统讲授方式与多媒体教学相结合,在线上学习和线下学习的混合教学模式,我们为学生提供线上视频资料演示操作,学生可以反复观看自己学习。
作业与思考题:
1.简述什么是预处理?
2.简述标注数据的用途?
3.简述常用的数据可视化工具有哪些?
2.1 什么是数据?
在计算机科学中数据有更丰富的内涵,文字、符号、图像、声音等也都是数据。
2.1.1 数和数据的区别
2.1.2 通信中数据的分类
python 爬虫教学2.1.3 计算机中数据的编码
2.1.4 数据文件
数据在计算机中是以文件的形式存储的,计算机文件是指存储在某种外部存储器(如硬盘、光盘、U盘等)上的一段数据流,外部存储器的特点是所存信息可以长期、多次使用,不会因为断电而消失。
2.2 数据采集
2.2.1 采集渠道
1.直接购买或共享行业数据
2.网络采集
3.第三方合作
4.自行采集
2.2.2 数据采集的注意事项
1.深度理解
2.实时沟通
3.采集质量
2.2.3 标注数据的采集案例
2.2.4 数据质量
2.3 Python安装与爬虫数据采集案例
2.3.1 Python安装与环境配置
2.3.2 Python爬虫案例
方法说明
<( ) 获取HTML网页的主要方法,对应HTTP的GET
requests.head( ) 获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post( ) 向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put( ) 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch( ) 向HTML网页提交局部修改请求,对应于HTTP的PA TCH
requests.delete( ) 向HTML网页提交删除请求,对应于HTTP的DELETE
2.4 数据预处理
2.4.1 数据清洗(Data Cleaning)
2.4.2 数据集成(Data Integration)
2.4.3 数据归约(Data reduction)
2.4.4 数据变换(Data transfer)
2.4.5 数据预处理案例
2.5 标注数据
2.5.1 标注数据的用途
2.5.2 使用标注数据训练AI算法的流程
2.6 数据分析与应用
2.6.1 数据分析方法
2.6.2 数据可视化
2.6.3 数据分析与可视化案例