您所在的位置：首頁 > IT干貨資料 > 大數(shù)據(jù) > 【大數(shù)據(jù)基礎知識】Spark常用算子（二）

【大數(shù)據(jù)基礎知識】Spark常用算子（二）

發(fā)布：大數(shù)據(jù)培訓
來源：大數(shù)據(jù)干貨資料
2021-07-28 10:07:22
閱讀()
分享

手機端入口

1. mapValues

mapValues算子，作用于 [K,V] 格式的RDD上，并且只對V(Value)進行操作，Key值保持不變。

(1)將[K,V] 格式的List轉換為[K,V] 格式的RDD。

scala> val rdd = sc.makeRDD(List(("Tom",100),("Mike",80)))

rdd: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[2] at makeRDD at :24

(2)使用mapValues算子，將value值乘以100，key值保持不變

scala> val rdd2=rdd.mapValues(_*100)

rdd2: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[1] at mapValues at :26

(3)使用collect算子回收，查看結果

scala> rdd2.collect

res0: Array[(String, Int)] = Array((Tom,10000), (Mike,8000))

2. mapPartitions

作用于RDD上的每一個分區(qū)，傳遞的函數(shù)相當于一個迭代器，有幾個分區(qū)，就會迭代幾次。

object Test1 {

def main(args: Array[String]): Unit = {

val conf=new SparkConf()

.setMaster("local[*]")

.setAppName(this.getClass.getSimpleName)

val sc=new SparkContext(conf)

val rdd=sc.makeRDD(List(1,2,3,4,5,6),3);

val values: RDD[Int] = rdd.mapPartitions(t => {

t.map(_ * 10)

})

//打印輸出結果

values.foreach(println)

}

使用上面的代碼進行測試。輸出結果如下：

可以看到，因為設置了3個分區(qū)，所以相應啟動了3個任務，在每個分區(qū)上進行迭代計算。

3. filter

filter算子過濾出所有的滿足條件的元素。

另外fliter算子不會改變分區(qū)的數(shù)量，所以經過過濾后，即使某些分區(qū)沒有數(shù)據(jù)了，但是分區(qū)依然存在的。

scala> val rdd1 = sc.makeRDD(List(1,2,3,4,5,6),3)

rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at makeRDD at :24

scala> val rdd2 = rdd1.filter(_>3)

rdd2: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[3] at filter at :26

scala> rdd2.partitions.size

res3: Int = 3

4. sortBy

sortBy算子按照指定條件進行排序。

我們使用下面的代碼進行測試：

object Test2 {

def main(args: Array[String]): Unit = {

val conf=new SparkConf()

.setMaster("local[*]")

.setAppName(this.getClass.getSimpleName)

val sc=new SparkContext(conf)

val rdd: RDD[(String, Int)] = sc.makeRDD(List(("Tom", 80), ("Mike", 90), ("Mary", 85),("John",60)))

//按value值升序排列

val res1: RDD[(String, Int)] = rdd.sortBy(_._2)

res1.collect.foreach(println)

// 按value值降序排列

val res2: RDD[(String, Int)] = rdd.sortBy(_._2, false)

res2.collect.foreach(println)

}

升序輸出的結果如下：

降序輸出的結果如下：

有一點需要說明的是，輸出結果前，要使用collect算子把結果回收到本地。因為數(shù)據(jù)是分散在集群各節(jié)點的，如果不回收，看到的結果可能是不正確的。

文章“【大數(shù)據(jù)基礎知識】Spark常用算子（二）”已幫助人

>>本文地址：http://nfbqydst.cn/zhuanye/2021/69463.html

THE END

聲明:本站稿件版權均屬中公教育優(yōu)就業(yè)所有，未經許可不得擅自轉載。

IT培訓

關注我們

熱門課程更多 >

關注我們

中公教育 IT 培訓品牌

專注于職業(yè)教育的A股上市公司

證券代碼：002607

首頁

IT培訓課程

IT培訓班型

在線網(wǎng)課

企商培訓

教學服務

就業(yè)服務

學員薪資

師資團隊

關于我們

【大數(shù)據(jù)基礎知識】Spark常用算子（二）

推薦閱讀

快速通道fast track

近期開班時間TIME

優(yōu)就業(yè)——中公教育旗下IT培訓品牌

IT培訓

關注我們

熱門課程 更多 >

關注我們

【大數(shù)據(jù)基礎知識】Spark常用算子（二）

推薦閱讀

快速通道fast track

近期開班時間TIME

優(yōu)就業(yè)——中公教育旗下IT培訓品牌

熱門課程更多 >