4355游戏网下载

書名：大數據技術入門
作者名：楊正洪
本章字數： 475字
更新時間： 2021-04-02 21:40:36

2.4 框架的選擇

大數據系統架構有兩個組成部分，實時數據流處理和批量數據處理。我們根據具體的需求選擇適當的數據處理框架。一些框架適用于批量數據處理，而另外一些適用于實時數據處理。一些框架使用內存模式，另外一些是基于磁盤I/O處理模式。基于內存的框架性能明顯優于基于磁盤I/O的框架，但是同時成本也高很多?？傊x擇一個能夠滿足需求的框架。否則就有可能既無法滿足功能需求，也無法滿足非功能需求（比如：性能需求）。

一些框架將數據劃分成較小的塊。這些小數據塊由各個作業獨立處理。協調器管理所有這些獨立的子作業。數據分塊是需要小心的。數據塊越小，就會產生越多的作業，這樣就會增加系統初始化作業和清理作業的負擔。如果數據塊太大，數據傳輸可能需要很長時間才能完成。這也可能導致資源利用不均衡，長時間在一臺服務器上運行一個大作業，而其他服務器就會等待而造成處理能力的浪費。不要忘了查看一個任務的作業總數，在必要時調整這個參數。盡量實時監控數據塊的傳輸。

大數據分析結果應該保存成用戶期望看到的格式。如果用戶要求按照每周的時間序列匯總輸出，那么你就要將結果以周為單位進行匯總保存。

官术网_书友最值得收藏!

大數據技術入門

2.4 框架的選擇