官术网_书友最值得收藏!

1.2 大數據挑戰

什么是大數據?多大的數據量可以稱為大數據?不同的年代有不同的答案[2]。20 世紀80年代早期,大數據指的是數據量大到需要存儲在數千萬個磁帶中的數據;20 世紀90 年代,大數據指的是數據量超過單個臺式機存儲能力的數據;如今,大數據指的是那些關系型數據庫難以存儲、單機數據分析統計工具無法處理的數據,這些數據需要存放在擁有數千萬臺機器的大規模并行系統上。大數據出現在日常生活和科學研究的各個領域,數據的持續增長使人們不得不重新考慮數據的存儲和管理。

隨著社會計算的興起,人們習慣于在網上分享和交流信息。比如,社交網站Facebook擁有龐大的用戶群,而且在不斷增長。這些用戶每天發出的日志以及分享的資料更是不計其數,其數據量已經達到PB級別,傳統的解決方案已經不能很好地處理這些數據。Facebook自己開發了Cassandra系統,現在又采用HBase,這些針對海量數據的管理系統能夠較好地為用戶提供服務,而且具有可擴展性和容錯性,這是解決大數據問題所需要的性能。微博服務商Twitter也面臨大數據的挑戰,消息的發送量達到每天數億條,而查詢量則達到每天數十億次,這要求存儲管理系統不僅能夠存儲大規模數據,而且能夠提供高吞吐的讀/寫服務。Twitter原先使用MySQL數據庫,之后由于用戶暴增便將數據遷移到NoSQL系統上,盡管NoSQL系統還未成熟,但卻是解決海量數據的較為有效的方案。其他的互聯網公司同樣面臨著大數據帶來的問題,如Goolge搜索引擎需要處理大規模的網頁信息,YouTube則需要存儲和提供用戶分享的視頻數據,維基百科提交用戶分享的知識等,這些都涉及大規模數據信息存儲與管理。

隨著電子商務的發展,越來越多的人在網上選購商品,商務網站需要存儲大量的商品信息和用戶的交易信息,涉及大規模的數據。同時網站需要提供迅速的請求響應,以提高用戶體驗來吸引客戶。而且網站還要對這些海量數據進行處理和分析,以便更有針對性地向用戶推薦商品,海量數據成為系統構建和業務成敗的關鍵因素。中國商業網站淘寶使用HBase來存儲數據,同時不斷探索自己的解決之路,開發了支持大數據的數據庫系統OceanBase來實現部分在線應用。全球最大的線上拍賣和購物網站eBay也積極尋求海量數據的解決方案,其基于Hadoop建立了自己的集群系統Athena來處理大規模數據,同時開發了自己的開源云平臺項目Turmeric來更好地開發和管理各種服務。同時,各大零售公司無論是在線銷售還是實體銷售,都會注意收集客戶的消費信息以便有針對性地提供服務或推薦商品,這些都涉及大規模數據的應用。

各個領域的科學研究同樣面臨海量數據的挑戰,從生物基因到天文氣象,從物理實驗到臨床醫學,得益于測量技術和設備的發展,這些領域在實驗或實踐中產生了大量的數據,而人們需要對這些數據進行處理分析從而挖掘出有價值的信息,但這不是容易的事情。隨著下一代基因測序技術的發展,基因中所蘊含的信息逐漸被人們所發掘,人們獲得更多更準確的基因數據,但是如何匹配基因數據,如何從這些數據中挖掘出所需要的信息,這是生物信息學遇到的新挑戰。在環境氣象研究中,科學家已經收集了數十年甚至上百年的氣象環境數據,在這些數據中分析氣候的變化需要海量數據處理技術的支持。在醫學藥物研究中搜集的大量的病人生理數據和藥物測試數據,這些數據的規模很大,需要從中分析出有用的信息。在人文社會科學中,社會學家開始注意互聯網社交網絡上的人際交往和社會關系,其涉及的數據量也是非常巨大的,從海量數據中找出社會學家感興趣的內容是富有挑戰性的。人工智能研究方面,人們希望計算機擁有人類的學習能力和邏輯推理能力,這就需要機器存儲大量的經驗數據和知識數據,還需要從這些大量數據中迅速獲得所需要的內容,并對其進行分析處理,從而做出正確有效的判斷。

如今傳感器的廣泛使用,數據采集更加方便,這些傳感器會連續地產生數據,如實時監控系統、網絡流量監測等。除了傳感器源源不斷地產生數據外,許多領域都會涉及流數據,如經濟金融領域中股票價格和交易數據、零售業中的交易數據、通信領域中的數據等都是流數據,這些數據最大的特點就是海量,因為它們每時每刻連續不斷地產生,但與其他的海量數據不同,流數據連續有序、變化迅速,而且對處理分析的響應度要求較高,因此對于流數據的處理和挖掘往往采用不同的方法。經濟金融領域各個方面都產生海量數據,如證券價格變化和股票交易形成的流數據,企業或個人各種經濟活動而產生的數據等。現代經濟已經步入海量數據時代,在新時代下可以帶來創新和生產率增長,并可能出現新的商業模式。利用好經濟生活產生的海量數據,可以發揮重要的經濟作用,不僅有利于企業的商業活動,也有利于國民經濟,提高國家的競爭力。面對大規模的經濟數據,人們除了需要提高獲取、存儲和分析數據的能力,同時需要保障數據的安全和隱私,但這仍然是巨大的挑戰。

傳統的關系型數據庫并不能夠很好地解決海量數據帶來的問題,單機的統計和可視化工具也變得力不從心。一些新的數據管理系統如并行數據庫、網格數據庫、分布式數據庫、云平臺、可擴展數據庫等孕育而生,它們為解決海量數據提供了多種選擇。

主站蜘蛛池模板: 兰州市| 乌恰县| 万年县| 苍山县| 新河县| 龙山县| 将乐县| 和硕县| 绥棱县| 弋阳县| 肥城市| 铁岭市| 民和| 临海市| 康定县| 沙坪坝区| 祁连县| 分宜县| 乌兰浩特市| 南阳市| 乐都县| 香港| 安岳县| 保定市| 吴桥县| 双江| 吉林省| 桃园市| 临沧市| 孝昌县| 布尔津县| 眉山市| 白水县| 定南县| 神木县| 扬州市| 镇雄县| 涞源县| 宝兴县| 青海省| 河西区|