官术网_书友最值得收藏!

  • 大數據技術入門
  • 楊正洪
  • 475字
  • 2021-04-02 21:40:36

2.4 框架的選擇

大數據系統架構有兩個組成部分,實時數據流處理和批量數據處理。我們根據具體的需求選擇適當的數據處理框架。一些框架適用于批量數據處理,而另外一些適用于實時數據處理。一些框架使用內存模式,另外一些是基于磁盤I/O處理模式。基于內存的框架性能明顯優于基于磁盤I/O的框架,但是同時成本也高很多??傊x擇一個能夠滿足需求的框架。否則就有可能既無法滿足功能需求,也無法滿足非功能需求(比如:性能需求)。

一些框架將數據劃分成較小的塊。這些小數據塊由各個作業獨立處理。協調器管理所有這些獨立的子作業。數據分塊是需要小心的。數據塊越小,就會產生越多的作業,這樣就會增加系統初始化作業和清理作業的負擔。如果數據塊太大,數據傳輸可能需要很長時間才能完成。這也可能導致資源利用不均衡,長時間在一臺服務器上運行一個大作業,而其他服務器就會等待而造成處理能力的浪費。不要忘了查看一個任務的作業總數,在必要時調整這個參數。盡量實時監控數據塊的傳輸。

大數據分析結果應該保存成用戶期望看到的格式。如果用戶要求按照每周的時間序列匯總輸出,那么你就要將結果以周為單位進行匯總保存。

主站蜘蛛池模板: 固原市| 沙洋县| 巴里| 堆龙德庆县| 定结县| 鞍山市| 那曲县| 沁阳市| 铜梁县| 荥经县| 仁怀市| 普定县| 沙湾县| 额敏县| 绵竹市| 沅江市| 新竹县| 赤壁市| 瓮安县| 诸城市| 临湘市| 秭归县| 平邑县| 韶山市| 贡觉县| 衢州市| 盐津县| 汝阳县| 满洲里市| 石渠县| 华阴市| 清苑县| 盐池县| 岱山县| 贺兰县| 白玉县| 陆川县| 沙湾县| 永昌县| 屯留县| 彭山县|