SparkSqlLeftJoin(多对多)导致的数据膨胀问题和解决--688IT编程网

SparkSqlLeftJoin（多对多）导致的数据膨胀问题和解决问题：⼤表left join⼩表，⼩表有20万条，⼤概就12M⼤⼩。⼤表有30多亿条，对应分区下有40个HDFS⽂件，简单的⼀个left join，跑了⼏个⼩时跑不出结果。

INSERT OVERWRITE TABLE 结果表 PARTITION(dt='20220302')

select

vertice,types,gid

from (

select

vertice,gid,types

from

⼤表

where dt='20220302'

) a

left join (

SELECT

srcgid,dstgid

FROM

⼩表

WHERE dt='20220302') as b

sql left join 多表连接on a.gid = b.srcgid

解决：

1. 刚开始没仔细研究，做了两个优化：⼩表cache然后⼴播；⼤表select的时候重分区，增加并发数，还是没跑过，发现执⾏到left join的时候，数据膨胀得⾮常⼤，6000万的数据 join 20万数据，膨胀到千亿条。

2. 定位发现，在⼩表中，相同的srcgid对应多条不同的dstgid，⽐如相同的srcgid对应有100个dstgid，那么left join时，匹配的⼤表记录，每条记录都会膨胀成100条，和业务对接好需求之后，修改了，srcgid对应的dstgid只取其中⼀个，使⼤表关联⼩表的多对多情况，变成多对1。这样跑了⼏分钟就跑出来了。

--对这张⼩表重新⼊库，srcgid只对应⼀个dstgid，其他代码不变。

INSERT OVERWRITE TABLE ⼩表 PARTITION(dt='20220303')

select srcgid,min(dstgid) from (

select srcgid,dstgid from map表1 WHERE dt='20220303'

union

select srcgid,dstgid from map表2 WHERE dt='20220303'

group by srcgid

发表评论

688IT编程网

SparkSqlLeftJoin(多对多)导致的数据膨胀问题和解决

发表评论

推荐文章

link pro跳线路由原理

link造句

博科交换机Lose of link 丢失链路故障排除

The Call of Cthulhu

The last leaf 剧本

热门文章

entmax_bisect函数代码

pytorch常用函数总结(持续更新)

PLASMA TORCH FOR USE IN A WASTE PROCESSING CHAMBER

(完整版)定语从句翻译练习

The Beijing 2008 Olympic Torch Relay(火炬接力)

高级英语第三版第二册课后翻译

全新大学进阶英语综合教程2第五单元翻译及习题

关于生活的怪习惯英语作文

去年五一劳动节英语作文

神奇的事英语作文初一

向朋友介绍中国传统文化的英语作文

哈利波特电影介绍英语作文100字

介绍家规英语作文初一60字简单

内销跟单的工作流程英文介绍

place an order造句

去邮局的作文英语

家长应不应该给孩子检查作业英语作文

oracle 对多个字段排序规则

by order of的意思

商务英语中order的种类

最新文章

link pro跳线路由原理

link造句

博科交换机Lose of link 丢失链路故障排除

The last leaf 剧本

使用pytorch和torchtext进行文本分类的实例

安装torch,torch_geometric,torch_sparse,torch_sc。。。

标签列表