30了 2025-05-20 瞎扯 约 539 字 预计阅读 2 分钟 三年没写日记了,一转眼快30岁了。 前段时间,我和老婆迎来了我们的人类崽。加上家里的两只猫崽,现在也算是个“三胎家庭”了。刚从月子中心回家的那 阅读更多
Spark数据倾斜的解决方案 2022-04-13 spark 约 1248 字 预计阅读 3 分钟 抄 方案 提高reduce task的个数(添加分区数) 适用场景: key分布不均 思路: 添加reduce task的个数 原理: 分区数增大,可以让每个t 阅读更多
Spark Shuffle流程 2022-04-01 spark 约 1624 字 预计阅读 4 分钟 shuffle可以分为shuffle write和shuffle read两个阶段,执行shuffle write的称为map端,执行shuffl 阅读更多
Spark运行架构 2022-03-29 spark 约 2324 字 预计阅读 5 分钟 运行架构 上图是在spark官方上找的图,这里我们只说上面几个块块是做什么用的。 Driver Program,为Spark的驱动程序,其实就是一个spar 阅读更多
Mapreduce流程 2022-03-23 mapreduce 约 617 字 预计阅读 2 分钟 执行过程 假设mapreduce任务有M个Map任务和R个Reduce任务。 Map阶段: input: 在进行map计算前,mapreduce会根据数据的分 阅读更多