pyspark中dataframe读写数据库--688IT编程网

pyspark中dataframe读写数据库

本⽂只讨论spark借助jdbc读写mysql数据库

⼀，jdbc

想要spark能够从mysql中获取数据，我们⾸先需要⼀个连接mysql的jar包，mysql-connector-java-5.1.40-bin.jarevaluation造句

将jar包放⼊虚拟机中合适的位置，⽐如我放置在/home/sxw/Documents路径下，并在spark的 spark-env.sh ⽂件中加⼊: export SPARK_CLASSPATH=/home/sxw/Documents/mysql-connector-java-5.1.40-bin.jar

⼆，读取⽰例代码

进程间通信方式有哪些df = ad.format('jdbc').options(

url='jdbc:mysql://127.0.0.1',

dbtable='mysql.db',

forward的意思user='root',

password='123456'

).load()

df.show()

# 也可以传⼊SQL语句

sql="(select * from mysql.db where db='wp230') t"

df = ad.format('jdbc').options(

url='jdbc:mysql://127.0.0.1',

dbtable=sql,

user='root',

password='123456'

)

.load()

df.show()

---------------------

作者：振裕

来源：CSDN

三，写⼊⽰例代码

# 打开动态分区

spark.sql("de = nonstrict")

spark.sql("dynamic.partition=true")

# 使⽤普通的hive-sql写⼊分区表

spark.sql("""

insert overwrite table ai.da_aipurchase_dailysale_hive

partition (saledate)

select productid, propertyid, processcenterid, saleplatform, sku, poa, salecount, saledate

from szy_aipurchase_tmp_szy_dailysale distribute by saledate

""")

# 或者使⽤每次重建分区表的⽅式

de("overwrite").partitionBy("saledate").insertInto("ai.da_aipurchase_dailysale_hive")

jdbcDF.write.saveAsTable("ai.da_aipurchase_dailysale_hive", None, "append", partitionBy='saledate')

# 不写分区表，只是简单的导⼊到hive表

jdbcDF.write.saveAsTable("ai.da_aipurchase_dailysale_for_ema_predict", None, "overwrite", None)

---------------------

作者：振裕

来源：CSDN

原⽂：blog.csdn/suzyu12345/article/details/79673473

四，其他htmlinput边框不出现

import os

from pyspark.sql import SparkSession, SQLContext, DataFrame

visual c++

from adwriter import DataFrameReader, DataFrameWriter

appname = "demo"

mysql怎么读英语sparkmaster = "local"

spark = SparkSession.builder.appName(appname).master(sparkmaster).getOrCreate()

sc = spark.sparkContext

sqlContext = SQLContext(sc)

spark中实际是DataFrameReader, DataFrameWriter来实现读写dataframe数据操作。df = ad.format("jdbc").options(url, driver, dbtable).load()

df_reader = DataFrameReadre(sqlContext)

df = df_reader.format("jdbc").options().load()

df = df_reader.jdbc(url, table, porperties)

688IT编程网

pyspark中dataframe读写数据库

发表评论

推荐文章

KaliLinux的命令配置操作手册

Linux系统安装Nodejs和卸载Nodejs

vim树形目录插件NERDTree安装及简单用法

UbuntuSetup

在Surface笔记本上安装ArchLinux全过程

热门文章

linux命令行下配置网卡自动获取IP

Linux环境变量配置全攻略

Qt平台在Fedora14下的安装

Linux下的软件开发与测试环境搭建

Linux下的软件开发和编译环境配置

linux中blast用法 -回复

详解Xshell常见问题及相关配置

1+X网络安全试题库及参考答案

Linux基础(习题卷48)

CAD中用于创建和编辑文字的快捷键命令有哪些

1+X网络安全模拟题含答案

Linux基础(习题卷45)

Ubuntu Setup

大数据-05-Spark之读写HBase数据

工资-所需各面值人民币张数-C语言程序

使用Clion优雅的完全远程自动同步和远程调试c++

最经典的Source_Insight完整使用教程

pico使用指南

使用macOS终端进行文本文件的编辑

移动通信终端的输入装置以及使用该输入装置的移动通信终端

最新文章

KaliLinux的命令配置操作手册

Linux系统安装Nodejs和卸载Nodejs

vim树形目录插件NERDTree安装及简单用法

在Surface笔记本上安装ArchLinux全过程

Qt开发环境搭建(Linux)

Linux下解压修改jar包并运行

标签列表