官术网_书友最值得收藏!

1.2 時序數據的十大特征

相對于傳統的互聯網應用數據,時序數據具有許多獨有的特征。濤思數據的創始人陶建輝先生在2017年就已經對這些特征進行了深入的歸納和分析,并總結出時序數據及其應用的十大特征。

數據具有時序性,必須帶有時間戳:聯網設備按照設定的周期或在外部事件觸發下不斷產生數據,每條記錄都是在特定時間點生成的,其時間戳對于記錄的價值至關重要。

數據結構化:工業互聯網和物聯網設備產生的數據以及證券交易數據通常是結構化的,且大多數是數值型的。例如,智能電表采集的電流、電壓值可以用4B的標準化浮點數表示。

一個數據采集點就是一個數據流:一臺設備采集的數據和一只股票的交易數據與另一臺設備或股票的數據完全獨立。設備產生的數據或股票的交易數據只有一個生產者,即數據源是唯一的。

數據較少更新或刪除:對于一個典型的信息化或互聯網應用,它們產生的數據可能是經常需要被修改或刪除的。但對于設備或交易產生的數據,正常情況下不會被更新/刪除。

數據不依賴事務:在設備產生的數據中,單條數據的相對價值較低,數據的完整性和一致性不如傳統關系型數據庫嚴格。由于人們關注的是數據趨勢,因此無須引入復雜的事務機制。

相對于互聯網應用,寫操作多,讀操作少:互聯網應用中的數據記錄通常是一次寫入,多次讀取。例如,一條微博或一篇微信公眾號文章,一次寫,但有可能上百萬人讀。然而,工業互聯網和物聯網設備產生的數據主要由計算和分析程序自動讀取,且讀取次數有限,僅在發生事故時,人們才會主動讀取原始數據。

用戶關注一段時間內的趨勢:對于銀行交易記錄、微博或微信消息等,每條記錄對用戶都很重要。然而,在工業互聯網和物聯網時序數據中,單個數據點的價值相對較小,人們更關注一段時間內的數據變化趨勢,而非單一時間點。

數據具有保留期限:采集的數據通常基于時間長度設定保留策略,如僅保留一天、一周、一個月、一年,甚至更長時間。由于數據的價值往往取決于時間段,因此對于不在重要時間段內的數據,可以被視為過期數據并整塊刪除。

需要實時分析計算:對于大多數互聯網大數據應用,離線分析更為常見,即使有實時分析,要求也不高。比如用戶畫像場景,我們可以積累一定的用戶行為數據后再進行分析,早一點或晚一點對最終結果的影響并不大。然而,在工業互聯網、物聯網平臺應用和交易系統中,對數據的實時計算要求較高。因為我們需要根據計算結果進行實時報警、監控,以避免事故發生和錯過決策時機。

流量平穩且可預測:根據工業互聯網和物聯網設備的數量與數據采集頻次,可以較為準確地估算所需帶寬、流量、存儲等資源,以及每天新生成的數據量。這與電商在雙11期間流量激增,或12306網站在春節期間流量暴增的情況形成鮮明對比。

這些特征為時序數據的處理帶來了獨特的需求和挑戰。然而,一個高效的時序大數據平臺也將充分利用這些特征來提高自身的處理能力。

主站蜘蛛池模板: 元朗区| 辽中县| 闵行区| 金华市| 呼图壁县| 远安县| 德惠市| 华池县| 凌海市| 来宾市| 陵水| 土默特右旗| 华坪县| 东丰县| 商河县| 自治县| 涞源县| 姚安县| 安平县| 平定县| 大田县| 资源县| 石渠县| 马山县| 绩溪县| 米易县| 阳东县| 双流县| 常山县| 左权县| 历史| 介休市| 杭锦后旗| 枣强县| 昌宁县| 枣庄市| 临猗县| 万盛区| 永济市| 连平县| 乌拉特中旗|