Spark数据倾斜的解决方案 2022-04-13 spark 约 1248 字 预计阅读 3 分钟 抄 方案 提高reduce task的个数(添加分区数) 适用场景: key分布不均 思路: 添加reduce task的个数 原理: 分区数增大,可以让每个t 阅读更多
Spark Shuffle流程 2022-04-01 spark 约 1624 字 预计阅读 4 分钟 shuffle可以分为shuffle write和shuffle read两个阶段,执行shuffle write的称为map端,执行shuffl 阅读更多
Spark运行架构 2022-03-29 spark 约 2324 字 预计阅读 5 分钟 运行架构 上图是在spark官方上找的图,这里我们只说上面几个块块是做什么用的。 Driver Program,为Spark的驱动程序,其实就是一个spar 阅读更多
Mapreduce流程 2022-03-23 mapreduce 约 617 字 预计阅读 2 分钟 执行过程 假设mapreduce任务有M个Map任务和R个Reduce任务。 Map阶段: input: 在进行map计算前,mapreduce会根据数据的分 阅读更多
简单了解一下列式存储 2022-03-22 数据存储 约 1421 字 预计阅读 3 分钟 就当抄书了,还是不好好抄书的那种。 什么是列式存储? 在我们经常接触的OLTP数据库(如Mysql、Mongodb),大多是使用行结构进行存储数 阅读更多