官术网_书友最值得收藏!

1.3 大數據的產生及數據類型

1.3.1 大數據的產生

大量數據的產生是計算機技術和網絡通信技術普及的必然結果,特別是近年來互聯網、云計算、移動互聯網、物聯網及社交網絡等新型信息技術的發展,使得數據產生來源更加豐富。

(1)企業內部及企業外延。企業原有內部系統(如ERP、OA等應用系統)所產生的存儲在數據庫中的數據,屬于結構化數據,可直接進行處理使用,為公司決策提供依據。另外,企業內部也存在大量非結構化的內部交易數據,并且隨著移動互聯網、社交網絡等的應用越來越廣泛,信息化環境的變化促使企業越來越多的業務需要在互聯網、移動互聯網、社交網絡等平臺開展,使得企業外部數據迅速擴展。

(2)互聯網及移動互聯網。隨著社交網絡的發展,互聯網進入新的時代,用戶角色也發生了巨大的變化,從傳統的數據使用者轉變為隨時隨地的數據生產者,數據規模迅猛擴展。另外,移動互聯網更進一步促進更多用戶成為數據生產者。

(3)物聯網。物聯網技術的發展,使得視頻、音頻、RFID、M2M、物聯網和傳感器等產生大量數據,其數據規模更巨大。據IDC預測,到2020年,由M2M產生的數據將占到全世界數據總量的42%。由此可見物聯網產生的數據在整體數據來源中的比重之大。

1.3.2 數據類型

大數據除了數據量巨大外,另一個特點就是數據類型多。在海量數據中,僅有20%屬于結構化數據,其余均為非結構化數據。

按照數據結構,數據可以分為結構化數據、半結構化數據和無結構的非結構化數據。結構化數據存儲在數據庫中,邏輯結構清晰,易于使用。非結構化數據不方便用數據庫二維表來表現,如文檔、圖片、XML、圖像、音頻、視頻等。非結構化數據中有半結構化數據和無結構化的數據。

按照生產主體,數據可以分為企業應用產生的少量數據、用戶產生的大量數據(社交、電商等)、機器產生的巨量數據(應用服務器日志、傳感器數據、圖像和視頻、RFID等)。

按照數據作用的方式,數據可以分為交易數據和交互數據。海量交易數據指企業內部的經營交易信息,主要包括聯機交易數據和聯機分析數據,是結構化的、可以通過關系數據庫進行管理和訪問的靜態歷史數據。海量交互數據由源于Facebook、Twitter、微博及其他來源的社交媒體數據構成,包括呼叫詳細記錄(CDR)、設備和傳感信息、GPS 和地理位置映射數據、通過管理文件傳輸協議傳送的海量圖像文件、Web文本和點擊流數據、科學信息、電子郵件等。兩類數據的有效融合將是大勢所趨,大數據應用要有效集成兩類數據,并實現數據的處理和分析。

主站蜘蛛池模板: 岐山县| 天长市| 嘉定区| 乌拉特前旗| 澄江县| 抚宁县| 安徽省| 濮阳县| 雅江县| 加查县| 达尔| 永济市| 平顺县| 金山区| 乌拉特前旗| 信阳市| 全椒县| 汽车| 富宁县| 宜阳县| 乌拉特中旗| 苗栗县| 五寨县| 神农架林区| 金门县| 呼图壁县| 西安市| 新邵县| 和林格尔县| 宁河县| 南郑县| 南平市| 泸水县| 宝应县| 托里县| 黄山市| 北海市| 延长县| 阳山县| 保亭| 鄂伦春自治旗|