Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储--688IT编程网

Python爬⾍抓取东⽅财富⽹股票数据并实现MySQL数据库存储

Python爬⾍可以说是好玩⼜好⽤了。现想利⽤Python爬取⽹页股票数据保存到本地csv数据⽂件中，同时想把股票数据保存到MySQL数据库中。需求有了，剩下的就是实现了。

在开始之前，保证已经安装好了MySQL并需要启动本地MySQL数据库服务。提到安装MySQL数据库，前两天在⼀台电脑上安装MySQL5.7时，死活装不上，总是提⽰缺少Visual Studio 2013 Redistributable，但是很疑惑，明明已经安装了呀，原来问题出在版本上，更换⼀个版本后就可以了。⼩问题⼤苦恼，不知道有没有⼈像我⼀样悲催。

⾔归正传，启动本地数据库服务：

⽤管理员⾝份打开“命令提⽰符（管理员）”，然后输⼊“net start mysql57”（我把数据库服务名定义为mysql57了，安装MySQL时可以修改）就可以开启服务了。注意使⽤管理员⾝份打开⼩⿊框，如果不是管理员⾝份，我这⾥会提⽰没有权限，⼤家可以试试。

启动服务之后，我们可以选择打开“MySQL 5.7 Command Line Client”⼩⿊框，需要先输⼊你的数据库的密码，安装的时候定义过，在这⾥可以进⾏数据库操作。

下⾯开始上正餐。

⼀、Python爬⾍抓取⽹页数据并保存到本地数据⽂件中

⾸先导⼊需要的数据模块，定义函数：

#导⼊需要使⽤到的模块

import urllib

import re

import pandas as pd

import pymysql

import os

#爬⾍抓取⽹页函数

def getHtml(url):

html = quest.urlopen(url).read()

html = html.decode('gbk')

return html

#抓取⽹页股票代码函数

def getStackCode(html):

s = r'<li><a target="_blank" href="quote.eastmoney/\S\S(.*?).html">'

pat = repile(s)

code = pat.findall(html)

return code

真正⼲活的代码块：

Url = 'quote.eastmoney/stocklist.html'#东⽅财富⽹股票数据连接地址

filepath = 'D:\\data\\'#定义数据⽂件保存路径

#实施抓取

code = getStackCode(getHtml(Url))

#获取所有股票代码（以6开头的，应该是沪市数据）集合

CodeList = []

for item in code:

if item[0]=='6':

CodeList.append(item)

#抓取数据并保存到本地csv⽂件

for code in CodeList:

print('正在获取股票%s数据'%code)

url = '163/service/chddata.html?code=0'+code+\

'&end=20161231&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;TURNOVER;VOTURNOVER;VATURNOVER;TCAP;MCAP'

以上代码实现了爬⾍⽹页抓取股票数据，并保存到本地⽂件中。关于爬⾍的东西，有很多资料可以参考，⼤都是⼀个套路，不再多说。同时，本⽂实现过程中也参考了很多的⽹页资源，在此对所有原创者表⽰感谢！

先看下抓取的结果。CodeList是抓取到的所有股票代码的集合，我们看到它共包含1416条元素，即1416⽀股票数据。因为股票太多，所以抓取的是以6开头的，貌似是沪市股票数据（原谅我不懂⾦融）。

抓取到的股票数据会分别存储到csv⽂件中，⼀只股票数据⼀个⽂件。理论上会有1416个csv⽂件，和股票代码数⼀致。但原谅我的渣⽹速，下载⼀个都费劲，也是呵呵了。

打开⼀个本地数据⽂件看⼀下抓取的数据长什么样⼦：

其实和⼈⼯⼿动下载也没什么区别了，硬要说区别，那就是解放了劳动⼒，提⾼了⽣产⼒（怎么听起来像政治？）。

⼆、将数据存储到MySQL数据库

⾸先建⽴本地数据库连接：

#数据库名称和密码

name = 'xxxx'

password = 'xxxx' #替换为⾃⼰的⽤户名和密码

#建⽴本地数据库连接(需要先开启数据库服务)

db = t('localhost', name, password, charset='utf8')

cursor = db.cursor()

其中，数据库名称(name)和密码(password)是安装MySQL时设置的。

创建数据库，专门⽤来存储本次股票数据：

#创建数据库stockDataBase，如果存在则跳过

sqlSentence1 = "create database if not exists stockDataBase"

sqlSentence2 = "use stockDataBase;"

在⾸次运⾏的时候⼀般都会正常创建数据库，但如果再次运⾏，因数据库已经存在，那么跳过创建，继续往下执⾏。创建好数据库后，选择使⽤刚刚创建的数据库，在该数据库中存储数据表。

下⾯看具体的存储代码：

#获取本地⽂件列

fileList = os.listdir(filepath)

#依次对每个数据⽂件进⾏存储

for fileName in fileList:

data = pd.read_csv(filepath+fileName, encoding="gbk")

#创建数据表，如果数据表已经存在，会跳过继续执⾏下⾯的步骤print('创建数据表stock_%s'% fileName[0:6])

sqlSentence3 = "create table if not exists stock_%s" % fileName[0:6] + "(⽇期 date, 股票代码 VARCH

AR(10), 名称 VARCHAR(10), 收盘价 float,\

最⾼价 float, 最低价 float, 开盘价 float, 前收盘 float, 涨跌额 float, 涨跌幅 float, 换⼿率 float,\

成交量 bigint, 成交⾦额 bigint, 总市值 bigint, 流通市值 bigint)"

print('正在存储stock_%s'% fileName[0:6])

length = len(data)

for i in range(0, length):

record = tuple(data.loc[i])

#插⼊数据语句

try:

sqlSentence4 = "insert into stock_%s" % fileName[0:6] + "(⽇期, 股票代码, 名称, 收盘价, 最⾼价, 最低价, 开盘价,\

前收盘, 涨跌额, 涨跌幅, 换⼿率, 成交量, 成交⾦额, 总市值, 流通市值) \

values ('%s',%s','%s',%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)" % record

#获取的表中数据很乱，包含缺失值、Nnone、none等，插⼊数据库需要处理成空值

sqlSentence4 = place('nan','null').replace('None','null').replace('none','null')

except:#如果以上插⼊过程出错，跳过这条数据记录，继续往下进⾏

break

代码并不复杂，只要注意其中⼏个点就好了。

1.逻辑层次：

包含两层循环，外层循环是对股票代码的循环，内层循环是对当前股票的每⼀条记录的循环。说⽩了就是按照股票⼀⽀⼀⽀的存储，对于每⼀⽀股票，按照它每⽇的记录⼀条⼀条的存储。是不是很简单很暴⼒？是的！完全没有考虑更加优化的⽅式。

2.读取本地数据⽂件的编码⽅式：

使⽤'gbk'编码，默认应该是'utf8'，但好像不⽀持中⽂。

3.创建数据表：

同样的，如果数据表已经存在（判断是否存在if not exists），则跳过创建，继续执⾏下⾯的步骤（会继续存储）。有个问题是，有可能数据重复存储，可以选择跳过存储或者只存储最新数据。我在这⾥没有考虑太多额外的处理。其次，指定字段格式，后边⼏个字段成交量、成交⾦额、总市值、流通市值，因为数据较⼤，选择使⽤bigint类型。

4.没有指定数据表的主键：

最初是打算使⽤⽇期作为主键的，后来发现获取到的数据中竟然包含重复⽇期的数据，这就打破了主键的唯⼀性，会出bug的，然后我也没有多去思考数据⽂件的内容，也不会进⼀步使⽤这些个数据，也就图省事直接不设置主键了。

5.构造sql语句sqlSentence4：

该过程实现中，直接把股票数据记录tuple了，然后使⽤字符串格式化（%操作符）。造成的精度问题

没有多考虑，不知道会不会产⽣什么样的影响。%s有的上边带着' '，是为了在sql语句中表⽰字符串。其中有⼀个%s'，只有右边有单引号，匹配的是股票代码，只有⼀边单引号，这是因为从数据⽂件中读取到的字符串已经包含了左边的单引号，左边不需要再添加了。这是数据⽂件格式的问题，为了表⽰⽂本形式预先使⽤了单引号。

6.异常值处理：

⽂本⽂件中，包含有空值、None、none等不标准化数据，这⾥全部替换为null了，即数据库的空值。

url编码和utf8区别

完成MySQL数据库数据存储后，需要关闭数据库连接：

#关闭游标，提交，关闭数据库连接

db.close()

不关闭数据库连接，就⽆法在MySQL端进⾏数据库的查询等操作，相当于数据库被占⽤。

三、MySQL数据库查询

#重新建⽴数据库连接

db = t('localhost', name, password, 'stockDataBase')

cursor = db.cursor()

#查询数据库并打印内容

results = cursor.fetchall()

for row in results:

print(row)

#关闭

cursor.close()

dbmit()

db.close()

以上逐条打印，会凌乱到死的。也可以在MySQL端查看，先选中数据库：use stockDatabase;，然后查询：select * from stock_600000;，结果⼤概就是下⾯这个样⼦了：

四、完整代码

实际上，整个事情完成了两个相对独⽴的过程：1.爬⾍获取⽹页股票数据并保存到本地⽂件；2.将本地⽂件数据储存到MySQL数据库。并没有直接的考虑把从⽹页上抓取到的数据实时（或者通过⼀个临时⽂件）扔进数据库，跳过本地数据⽂件这个过程。这⾥只是尝试着去实现了⼀下这件事情，代码没有做任何的优化考虑。本⾝不实际去使⽤，只是乐趣⽽已，差不多先这样。哈哈~~

#导⼊需要使⽤到的模块

import urllib

import re

import pandas as pd

import pymysql

import os

#爬⾍抓取⽹页函数

def getHtml(url):

html = quest.urlopen(url).read()

html = html.decode('gbk')

return html

#抓取⽹页股票代码函数

def getStackCode(html):

s = r'<li><a target="_blank" href="quote.eastmoney/\S\S(.*?).html">'

pat = repile(s)

code = pat.findall(html)

return code

>>>>>开始⼲活>>>>>###

Url = 'quote.eastmoney/stocklist.html'#东⽅财富⽹股票数据连接地址

filepath = 'C:\\Users\\Lenovo\\Desktop\\data\\'#定义数据⽂件保存路径

#实施抓取

code = getStackCode(getHtml(Url))

#获取所有股票代码（以6开头的，应该是沪市数据）集合

if item[0]=='6':

CodeList.append(item)

#抓取数据并保存到本地csv⽂件

for code in CodeList:

print('正在获取股票%s数据'%code)

url = '163/service/chddata.html?code=0'+code+\

'&end=20161231&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;TURNOVER;VOTURNOVER;VATURNOVER;TCAP;MCAP'

>>>>>#将股票数据存⼊数据库>>>>>##

#数据库名称和密码

name = 'xxxx'

password = 'xxxx' #替换为⾃⼰的账户名和密码

#建⽴本地数据库连接(需要先开启数据库服务)

db = t('localhost', name, password, charset='utf8')

cursor = db.cursor()

#创建数据库stockDataBase

sqlSentence1 = "create database stockDataBase"

sqlSentence2 = "use stockDataBase;"

#获取本地⽂件列表

fileList = os.listdir(filepath)

#依次对每个数据⽂件进⾏存储

for fileName in fileList:

data = pd.read_csv(filepath+fileName, encoding="gbk")

#创建数据表，如果数据表已经存在，会跳过继续执⾏下⾯的步骤print('创建数据表stock_%s'% fileName[0:6])

sqlSentence3 = "create table stock_%s" % fileName[0:6] + "(⽇期 date, 股票代码 VARCHAR(10), 名称 VARCHAR(10),\

收盘价 float, 最⾼价 float, 最低价 float, 开盘价 float, 前收盘 float, 涨跌额 float, \

涨跌幅 float, 换⼿率 float, 成交量 bigint, 成交⾦额 bigint, 总市值 bigint, 流通市值 bigint)"

except:

print('数据表已存在！')

#迭代读取表中每⾏数据，依次存储（整表存储还没尝试过）

print('正在存储stock_%s'% fileName[0:6])

length = len(data)

for i in range(0, length):

record = tuple(data.loc[i])

#插⼊数据语句

try:

sqlSentence4 = "insert into stock_%s" % fileName[0:6] + "(⽇期, 股票代码, 名称, 收盘价, 最⾼价, 最低价, 开盘价, 前收盘, 涨跌额, 涨跌幅, 换⼿率, \成交量, 成交⾦额, 总市值, 流通市值) values ('%s',%s','%s',%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)" % record

#获取的表中数据很乱，包含缺失值、Nnone、none等，插⼊数据库需要处理成空值

sqlSentence4 = place('nan','null').replace('None','null').replace('none','null')

except:

#如果以上插⼊过程出错，跳过这条数据记录，继续往下进⾏

break

#关闭游标，提交，关闭数据库连接

cursor.close()

dbmit()

db.close()

>>>>>##查询刚才操作的成果>>>>>>####

#重新建⽴数据库连接

db = t('localhost', name, password, 'stockDataBase')

cursor = db.cursor()

#查询数据库并打印内容

results = cursor.fetchall()

for row in results:

print(row)

#关闭

cursor.close()

dbmit()

db.close()

python爬取三国演义文本,统计三国演义中出场次数前30的人物,并生成词云...

« 上一篇

关于python安全性的问题

688IT编程网

Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储

发表评论

推荐文章

Linux怎么直接执行PHP脚本文件

php文件写入或追加数据

php中实现文件上传的函数

php文件上传类程序代码

413 request entity too large 解决方法 -回复

热门文章

卡乐恒温恒湿控制器介绍

Lovegate病毒(爱情后门)的症状及清除方法

UGNX8.0最详细图示安装方法(图文教程)

BT3教程

ctft题目二进制数据解密

速达8.75安装说明

PGP安装使用图解

捡了我的手机看不了我的秘密

德语助手破解

--BT3BT4破解资料

破解禁用U盘的四大绝招

如何将EXE安装文件脱壳和破解

Windows主题破解通用补丁教程

ERDAS 9.2下载安装破解

电脑文件加密和解密技巧

Total Recorder破解版

数据加密技术在计算机网络安全中的应用意义

教你如何破解别人无线网密码,无线上网技术秘籍

BackTrack3解除WIFI无线网络密码

怎样到自己想要的“密码”

最新文章

Linux怎么直接执行PHP脚本文件

php文件写入或追加数据

php文件上传类程序代码

php上传文件类型

详解PHP文件上传漏洞

CD发烧碟刻录对音质是否有影响

标签列表

688IT编程网

Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储

发表评论

推荐文章

Linux怎么直接执行PHP脚本文件

php文件写入或追加数据

php中实现文件上传的函数

php文件上传类程序代码

413 request entity too large 解决方法 -回复

热门文章

卡乐恒温恒湿控制器介绍

Lovegate病毒(爱情后门)的症状及清除方法

UGNX8.0最详细图示安装方法(图文教程)

BT3教程

ctft题目二进制数据解密

速达8.75安装说明

PGP安装使用图解

捡了我的手机看不了我的秘密

德语助手破解

--BT3BT4破解资料

破解禁用U盘的四大绝招

如何将EXE安装文件脱壳和破解

Windows主题破解通用补丁教程

ERDAS 9.2下载 安装 破解

电脑文件加密和解密技巧

Total Recorder破解版

数据加密技术在计算机网络安全中的应用意义

教你如何破解别人无线网密码,无线上网技术秘籍

BackTrack3解除WIFI无线网络密码

怎样到自己想要的“密码”

最新文章

Linux怎么直接执行PHP脚本文件

php文件写入或追加数据

php文件上传类程序代码

php上传文件类型

详解PHP文件上传漏洞

CD发烧碟刻录对音质是否有影响

标签列表

ERDAS 9.2下载安装破解