- 大數據技術入門
- 楊正洪
- 475字
- 2021-04-02 21:40:36
2.4 框架的選擇
大數據系統架構有兩個組成部分,實時數據流處理和批量數據處理。我們根據具體的需求選擇適當的數據處理框架。一些框架適用于批量數據處理,而另外一些適用于實時數據處理。一些框架使用內存模式,另外一些是基于磁盤I/O處理模式。基于內存的框架性能明顯優于基于磁盤I/O的框架,但是同時成本也高很多??傊x擇一個能夠滿足需求的框架。否則就有可能既無法滿足功能需求,也無法滿足非功能需求(比如:性能需求)。
一些框架將數據劃分成較小的塊。這些小數據塊由各個作業獨立處理。協調器管理所有這些獨立的子作業。數據分塊是需要小心的。數據塊越小,就會產生越多的作業,這樣就會增加系統初始化作業和清理作業的負擔。如果數據塊太大,數據傳輸可能需要很長時間才能完成。這也可能導致資源利用不均衡,長時間在一臺服務器上運行一個大作業,而其他服務器就會等待而造成處理能力的浪費。不要忘了查看一個任務的作業總數,在必要時調整這個參數。盡量實時監控數據塊的傳輸。
大數據分析結果應該保存成用戶期望看到的格式。如果用戶要求按照每周的時間序列匯總輸出,那么你就要將結果以周為單位進行匯總保存。
推薦閱讀
- 大數據技術基礎
- PyTorch深度學習實戰:從新手小白到數據科學家
- SQL Server 2016 數據庫教程(第4版)
- Enterprise Integration with WSO2 ESB
- Creating Dynamic UIs with Android Fragments(Second Edition)
- 數據架構與商業智能
- LabVIEW 完全自學手冊
- 重復數據刪除技術:面向大數據管理的縮減技術
- 企業級容器云架構開發指南
- 云數據中心網絡與SDN:技術架構與實現
- Hadoop集群與安全
- MySQL數據庫技術與應用
- Mastering ROS for Robotics Programming(Second Edition)
- 從Lucene到Elasticsearch:全文檢索實戰
- Visual Studio 2012 and .NET 4.5 Expert Development Cookbook