官术网_书友最值得收藏!

3.1 Hadoop簡介

當今互聯網發展迅速,大型網站系統的日志量呈指數級增長,而日志對于互聯網公司是非常重要的,可以通過分析用戶操作日志來獲取用戶行為,從而有針對性地對用戶進行推薦,提高產品的價值。假如一天產生的日志量為300GB,則一年產生的日志量為300GB×365=107TB,這么大的數據量如何進行備份和容錯?又如何進行分析呢?

Apache Hadoop是大數據開發所使用的一個核心框架,是一個允許使用簡單編程模型跨計算機集群分布式處理大型數據集的系統。使用Hadoop可以方便地管理分布式集群,將海量數據分布式地存儲在集群中,并使用分布式并行程序來處理這些數據。它被設計成由單個服務器擴展到數千臺計算機,每臺計算機都提供本地計算和存儲功能。Hadoop本身的設計目的不是依靠硬件來提供高可用性,而是在應用層檢測和處理故障。

主站蜘蛛池模板: 衡水市| 栾川县| 庆元县| 同江市| 盐池县| 青冈县| 弥勒县| 东光县| 吴旗县| 阿鲁科尔沁旗| 长武县| 礼泉县| 库尔勒市| 新化县| 阜阳市| 洛川县| 新竹县| 星子县| 新密市| 广平县| 曲周县| 漳平市| 株洲县| 习水县| 当雄县| 江阴市| 彭泽县| 无锡市| 绵阳市| 蓝田县| 台湾省| 清流县| 桐庐县| 江油市| 乐亭县| 会理县| 红河县| 柏乡县| 双流县| 黄龙县| 青神县|