财神和大象

書名： Hadoop大數據技術開發實戰
作者名：張偉洋
本章字數： 572字
更新時間： 2020-03-06 11:48:42

5.5　案例分析：求平均分

本例通過對輸入文件中的學生三科成績進行計算，得出每個學生的平均成績。輸入文件中的每行內容均為一個學生的姓名和其相應的成績，每門學科為一個文件。要求輸出結果中每行有兩個數據，其中第一個代表學生的姓名，第二個代表其平均成績。

輸入的三個文件內容如下：

math.txt：

chinese.txt：

english.txt：

期望輸出結果如下：

1. 設計思路

根據MapReduce的工作原理可知，Map任務最終處理的結果對<key,value>會送到Reduce任務進行合并，具有相同key的<key,value>對則會送到同一個 Reduce任務中進行處理，即Reduce任務處理的數據是key和這個key對應的所有value的一個集合（value-list）。

MapReduce經典的WordCount（單詞計數）例子是將接收到的每一個value-list進行求和，進而得到所需的結果。而本例中，我們將Reduce任務接收到的value-list進行求平均分后，作為輸出的value值即可，輸出的key值仍然為接收到的key。

整個求平均分的流程如圖5-9所示。