- Hadoop 3.x大數據開發實戰
- 張偉洋
- 321字
- 2023-07-17 19:28:30
3.1 Hadoop簡介
當今互聯網發展迅速,大型網站系統的日志量呈指數級增長,而日志對于互聯網公司是非常重要的,可以通過分析用戶操作日志來獲取用戶行為,從而有針對性地對用戶進行推薦,提高產品的價值。假如一天產生的日志量為300GB,則一年產生的日志量為300GB×365=107TB,這么大的數據量如何進行備份和容錯?又如何進行分析呢?
Apache Hadoop是大數據開發所使用的一個核心框架,是一個允許使用簡單編程模型跨計算機集群分布式處理大型數據集的系統。使用Hadoop可以方便地管理分布式集群,將海量數據分布式地存儲在集群中,并使用分布式并行程序來處理這些數據。它被設計成由單個服務器擴展到數千臺計算機,每臺計算機都提供本地計算和存儲功能。Hadoop本身的設計目的不是依靠硬件來提供高可用性,而是在應用層檢測和處理故障。