虾兵蟹将捕鱼机技巧

書名： Spark大數據商業實戰三部曲：內核解密|商業案例|性能調優
作者名：王家林
本章字數： 2751字
更新時間： 2019-12-12 17:29:50

1.1　通過RDD實戰電影點評系統入門及源碼閱讀

日常的數據來源有很多渠道，如網絡爬蟲、網頁埋點、系統日志等。下面的案例中使用的是用戶觀看電影和點評電影的行為數據，數據來源于網絡上的公開數據，共有3個數據文件：uers.dat、ratings.dat和movies.dat。

其中，uers.dat的格式如下：

1.  UserID::Gender::Age::Occupation::Zip-code

這個文件里共有6040個用戶的信息，每行中用“::”隔開的詳細信息包括ID、性別（F、M分別表示女性、男性）、年齡（使用7個年齡段標記）、職業和郵編。

ratings.dat的格式如下：

1.  UserID::MovieID::Rating::Timestamp

這個文件記錄的是評分信息，即用戶ID、電影ID、評分（滿分是5分）和時間戳。

movies.dat的格式如下：

1.  MovieID::Title::Genres

這個文件記錄的是電影信息，即電影ID、電影名稱和電影類型。

1.1.1　Spark核心概念圖解

進入到案例實戰前，首先來看幾個至關重要的概念，這些概念承載著Spark集群運轉和程序運行的重要使命。Spark運行架構圖如圖1-1所示。

Master（圖1-1中的Cluster Manager）：就像Hadoop有NameNode和DataNode一樣，Spark有Master和Worker。Master是集群的領導者，負責管理集群資源，接收Client提交的作業，以及向Worker發送命令。

Worker（圖1-1中的Worker Node）：集群中的Worker，執行Master發送的指令，來具體分配資源，并在這些資源中執行任務。

Driver：一個Spark作業運行時會啟動一個Driver進程，也是作業的主進程，負責作業的解析、生成Stage，并調度Task到Executor上。

Executor：真正執行作業的地方。Executor分布在集群中的Worker上，每個Executor接收Driver的命令來加載和運行Task，一個Executor可以執行一到多個Task。

圖1-1　Spark運行架構圖

SparkContext：是程序運行調度的核心，由高層調度器DAGScheduler劃分程序的每個階段，底層調度器TaskScheduler劃分每個階段的具體任務。SchedulerBackend管理整個集群中為正在運行的程序分配的計算資源Executor。

DAGScheduler：負責高層調度，劃分stage并生成程序運行的有向無環圖。

TaskScheduler：負責具體stage內部的底層調度，具體task的調度、容錯等。

Job：（正在執行的叫ActiveJob）是Top-level的工作單位，每個Action算子都會觸發一次Job，一個Job可能包含一個或多個Stage。

Stage：是用來計算中間結果的Tasksets。Tasksets中的Task邏輯對于同一個RDD內的不同partition都一樣。Stage在Shuffle的地方產生，此時下一個Stage要用到上一個Stage的全部數據，所以要等到上一個Stage全部執行完才能開始。Stage有兩種：ShuffleMapStage和ResultStage，除了最后一個Stage是ResultStage外，其他Stage都是ShuffleMapStage。ShuffleMapStage會產生中間結果，以文件的方式保存在集群里，Stage經常被不同的Job共享，前提是這些Job重用了同一個RDD。

Task：任務執行的工作單位，每個Task會被發送到一個節點上，每個Task對應RDD的一個partition。

RDD：是不可變的、Lazy級別的、粗粒度的（數據集級別的而不是單個數據級別的）數據集合，包含了一個或多個數據分片，即partition。

另外，Spark程序中有兩種級別的算子：Transformation和Action。Transformation算子會由DAGScheduler劃分到pipeline中，是Lazy級別的不會觸發任務的執行；Action算子會觸發Job來執行pipeline中的運算。

介紹完上面的關鍵概念，下面開始進入到程序編寫階段。

首先寫好Spark程序的固定框架，以便于在處理和分析數據的時候專注于業務邏輯本身。

創建一個Scala的object類，在main方法中配置SparkConf和SparkContext，這里指定程序在本地運行，并且把程序名字設置為“RDD_Movie_Users_Analyzer”。

RDD_Movie_Users_Analyzer代碼如下。

1.   val conf = new SparkConf().setMaster("local[*]")
2.  .setAppName("RDD_Movie_Users_Analyzer")
3.   /**
    *Spark 2.0    引入 SparkSession    封裝了  SparkContext    和 SQLContext，并且會在
    *builder的getOrCreate方法中判斷是否有符合要求的SparkSession存在，有則使用，
    *沒有則進行創建
    */
4.  val spark = SparkSession.builder.config(conf).getOrCreate()
5.  //獲取SparkSession的SparkContext
6.  val sc = spark.sparkContext
7.  //把Spark程序運行時的日志設置為warn級別，以方便查看運行結果
8.  sc.setLogLevel("warn")
9.  //把用到的數據加載進來轉換為RDD，此時使用sc.textFile并不會讀取文件，而是標記了有
    //這個操作，遇到Action級別算子時才會真正去讀取文件
10. val usersRDD = sc.textFile(dataPath + "users.dat")
11. val moviesRDD = sc.textFile(dataPath + "movies.dat")
12. val ratingsRDD = sc.textFile(dataPath + "ratings.dat")
13. /**具體數據處理的業務邏輯*/
14. //最后關閉SparkSession
15. spark.stop

1.1.2　通過RDD實戰電影點評系統案例

首先我們來寫一個案例計算，并打印出所有電影中評分最高的前10個電影名和平均評分。

第一步：從ratingsRDD中取出MovieID和rating，從moviesRDD中取出MovieID和Name，如果后面的代碼重復使用這些數據，則可以把它們緩存起來。首先把使用map算子上面的RDD中的每一個元素（即文件中的每一行）以“：：”為分隔符進行拆分，然后再使用map算子從拆分后得到的數組中取出需要用到的元素，并把得到的RDD緩存起來。

1.  println("所有電影中平均得分最高（口碑最好）的電影:")
2.  val movieInfo = moviesRDD.map(_.split("::")).map(x => (x(0), x(1))).cache()
3.  val ratings = ratingsRDD.map(_.split("::"))
4.  .map(x => (x(0), x(1), x(2))).cache()

第二步：從ratings的數據中使用map算子獲取到形如（movieID,(rating,1)）格式的RDD，然后使用reduceByKey把每個電影的總評分以及點評人數算出來。

1.  val moviesAndRatings = ratings.map(x => (x._2, (x._3.toDouble, 1)))
2.        .reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2))

此時得到的RDD格式為（movieID,(Sum(ratings),Count(ratings))）。

第三步：把每個電影的Sum(ratings)和Count(ratings)相除，得到包含了電影ID和平均評分的RDD：

1.  val avgRatings= moviesAndRatings.map(x => (x._1,x._2._1.toDouble / x._2._2))

第四步：把avgRatings與movieInfo通過關鍵字（key）連接到一起，得到形如（movieID, (MovieName,AvgRating)）的RDD，然后格式化為（AvgRating,MovieName），并按照key（也就是平均評分）降序排列，最終取出前10個并打印出來。

1.  avgRatings.join(movieInfo).map(item => (item._2._1,item._2._2))
2.        .sortByKey(false).take(10)
3.        .foreach(record => println(record._2+"評分為："+record._1))

評分最高電影運行結果如圖1-2所示。

圖1-2　評分最高電影運行結果

接下來我們來看另外一個功能的實現：分析最受男性喜愛的電影Top10和最受女性喜愛的電影Top10。

首先來分析一下：單從ratings中無法計算出最受男性或者女性喜愛的電影Top10，因為該RDD中沒有Gender信息，如果需要使用Gender信息進行Gender的分類，此時一定需要聚合。當然，我們力求聚合使用的是mapjoin（分布式計算的一大痛點是數據傾斜，map端的join一定不會數據傾斜），這里是否可使用mapjoin？不可以，因為map端的join是使用broadcast把相對小得多的變量廣播出去，這樣可以減少一次shuffle，這里，用戶的數據非常多，所以要使用正常的join。

1.   Val usersGender = usersRDD.map(_.split("::")).map(x => (x(0), x(1)))
2.  val genderRatings = ratings.map(x => (x._1, (x._1, x._2, x._3)))
3.  .join(usersGender).cache()
4.  genderRatings.take(10).foreach(println)

使用join連接ratings和users之后，對分別過濾出男性和女性的記錄進行處理：

1.  val maleFilteredRatings = genderRatings
2.  .filter(x => x._2._2.equals("M")).map(x => x._2._1)
3.  val femaleFilteredRatings = genderRatings
4.  .filter(x => x._2._2.equals("F")).map(x => x._2._1)

接下來對兩個RDD進行處理，處理邏輯和上面的案例相同，最終打印出來的結果分別如圖1-3和圖1-4所示：

所有電影中最受男性喜愛的電影Top10業務代碼如下。所有電影中最受女性喜愛的電影Top10業務代碼如下。

1.   println("所有電影中最受男性喜愛的電影Top10:")
2.  maleFilteredRatings.map(x => (x._2, (x._3.toDouble, 1)))
3.    .reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2))
4.  .map(x => (x._1,x._2._1.toDouble / x._2._2))
5.  .join(movieInfo)
6.  .map(item => (item._2._1,item._2._2))
7.  .sortByKey(false) .take(10)
8.  .foreach(record => println(record._2+"評分為："+record._1))

圖1-3　最受男性喜愛的電影運行結果

1.   println("所有電影中最受女性喜愛的電影Top10:")
2.  femaleFilteredRatings.map(x => (x._2, (x._3.toDouble, 1)))
3.    .reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2))
4.  .map(x => (x._1,x._2._1.toDouble / x._2._2)) .join(movieInfo)
5.  .map(item => (item._2._1,item._2._2)).sortByKey(false) .take(10)
6.  .foreach(record => println(record._2+"評分為："+record._1))

圖1-4　最受女性喜愛的電影運行結果

在現實業務場景中，二次排序非常重要，并且經常遇到。下面來模擬一下這些場景，實現對電影評分數據進行二次排序，以Timestamp和Rating兩個維度降序排列，值得一提的是，Java版本的二次排序代碼非常煩瑣，而使用Scala實現就會很簡捷，首先我們需要一個繼承自Ordered和Serializable的類。

1.   class SecondarySortKey(val first: Double, val second: Double)
2.  extends Ordered[SecondarySortKey] with Serializable {
3.  //在這個類中重寫compare方法
4.  override def compare(other: SecondarySortKey): Int = {
5.  //既然是二次排序，那么首先要判斷第一個排序字段是否相等，如果不相等，就直接排序
6.  if (this.first - other.first != 0) {
7.        (this.first - other.first).toInt
8.      } else {
9.       //如果第一個字段相等，則比較第二個字段，若想實現多次排序，也可以按照這個模式繼
         //續比較下去
10.       if (this.second - other.second > 0) {
11.         Math.ceil(this.second - other.second).toInt
12.       } else if (this.second - other.second < 0) {
13.         Math.floor(this.second - other.second).toInt
14.       } else {
15.         (this.second - other.second).toInt
16.       }
17.     }
18.   }
19. }

然后再把RDD的每條記錄里想要排序的字段封裝到上面定義的類中作為key，把該條記錄整體作為value。

1.    println("對電影評分數據以Timestamp和Rating兩個維度進行二次降序排列:")
2.  val pairWithSortkey = ratingsRDD.map(line => {
3.        val splited = line.split("::")
4.        (new SecondarySortKey(splited(3).toDouble, splited(2).toDouble), line)
5.      })
6.  //直接調用sortByKey，此時會按照之前實現的compare方法排序
7.  val sorted = pairWithSortkey.sortByKey(false)
8.
9.  val sortedResult = sorted.map(sortedline => sortedline._2)
10. sortedResult.take(10).foreach(println)

取出排序后的RDD的value，此時這些記錄已經是按照時間戳和評分排好序的，最終打印出的結果如圖1-5所示，從圖中可以看到已經按照timestamp和評分降序排列了。

圖1-5　電影系統二次排序運行結果

官术网_书友最值得收藏!

Spark大數據商業實戰三部曲：內核解密|商業案例|性能調優

1.1 通過RDD實戰電影點評系統入門及源碼閱讀

1.1.1 Spark核心概念圖解

1.1.2 通過RDD實戰電影點評系統案例

1.1　通過RDD實戰電影點評系統入門及源碼閱讀

1.1.1　Spark核心概念圖解

1.1.2　通過RDD實戰電影點評系統案例