Spark数据倾斜的解决方案

抄 方案 提高reduce task的个数(添加分区数) 适用场景: key分布不均 思路: 添加reduce task的个数 原理: 分区数增大,可以让每个t

Spark Shuffle流程

shuffle可以分为shuffle write和shuffle read两个阶段,执行shuffle write的称为map端,执行shuffl

Spark运行架构

运行架构 上图是在spark官方上找的图,这里我们只说上面几个块块是做什么用的。 Driver Program,为Spark的驱动程序,其实就是一个spar

Mapreduce流程

执行过程 假设mapreduce任务有M个Map任务和R个Reduce任务。 Map阶段: input: 在进行map计算前,mapreduce会根据数据的分