- Doris實時數倉實戰
- 王春波
- 2335字
- 2023-11-02 20:30:18
Foreword 推薦序二
回顧數字化歷史,從20世紀80年代首次提出大數據概念到今天,全球經濟已經完全邁入數據和智能驅動的數字經濟時代。數據分析技術也已經成為數字經濟時代的核心生產力工具,需要持續革新,以應對組織在數字化轉型過程中面臨的海量數據、實時分析、敏捷開發等一系列挑戰。
經歷傳統數倉時代和湖倉并存時代,大數據分析技術已經發展到數據湖和實時數倉等技術。這些技術普遍以開源為主,比如Hadoop、Hive、Spark、Flink等,用于滿足PB級數千臺機器規模的離線計算存儲;又比如Druid、ClickHouse、Doris等,用于滿足高并發、低延時特點的在線報表與分析、行為分析和畫像構建等新型數據應用。
隨著云計算的廣泛普及和產業互聯網的到來,這些技術系統的復雜性和開發維護成本給它們在更廣泛產業群體中應用和普及帶來很多障礙。用戶普遍需要的是一個系統復雜度低、性價比高、簡單易用的數據分析平臺,這也成為全球范圍內數據分析技術的發展潮流。因此,一個全新的現代數據棧時代已經來臨,其最重要的特征就是以云數倉為中心,這將是一次數據分析技術的革新和普惠。
作為現代數據棧的核心,云數倉已經呈現出三大變革趨勢,即實時化、統一化與云原生化。
?實時化:從千萬級高并發、毫秒級延時、高吞吐走向分鐘級的數據產出效率成為數據分析技術的關鍵詞。
?統一化:湖倉一體、在離線一體、流批一體等智能湖倉的理念加速了平臺和接口的統一;計算模型的融合、多模數據類型支持進一步提高存儲計算的效能,降低運維門檻。
?云原生化:數據倉庫結合云的軟硬件創新、資源彈性、安全可靠、隨需而用等云原生特色,從根本上帶給用戶極致性價比和極簡使用體驗。
技術和產品創新的本質是契合廣大用戶的訴求和新技術的演進趨勢,SelectDB Cloud在這樣的時代背景下應運而生,引領最新的數倉技術和產品創新。
SelectDB作為Apache Doris的商業化公司,是實時數倉技術的引領者。而此次發布的SelectDB Cloud也是當前國內首個真正實現多云中立的云原生實時數倉。作為一個采用完全存算分離架構、隨需而用的企業級云數倉,SelectDB Cloud的5項優勢在于極致性價比、融合統一、簡單易用、企業特性和開源開放。
下面介紹SelectDB Cloud的特性和優勢。
首先是超高的性能表現。對于一款數據分析基礎軟件,性能對于用戶來說是關鍵。與同類產品相比,SelectDB Cloud性能遙遙領先,在寬表聚合場景和多表關聯場景上均表現出巨大的性能優勢。其中,在寬表聚合場景下,使用SSB-flat測試,SelectDB Cloud是ClickHouse的3.4倍,是Presto的92倍,是業界標桿產品Snowflake的6倍。在多表關聯場景下,使用TPC-Hsf100測試,SelectDB Cloud的性能是是RedShit的1.5倍,是ClickHouse的49倍,是業界標桿產品Snowflake的2.5倍。而2022年11月,SelectDB利用強大的技術優勢在全球分析型數據庫排行榜Click Bench上取得了領先全球知名品牌的優異成績,多項指標位于世界第一。例如在常用機型c6a.4xlarge、500gbgp2的測試下,SelectDB在未進行任何調優的情況下,查詢性能在所有同類產品中位列第一,Hot Run和Cold Run性能得分分別領先第二位35%和25%。在匯集了多個不同機型的總榜中,SelectDB在所有同類型產品中依舊取得了Cold Run查詢性能第一,Hot Run查詢性能第二的優異成績。在全部43個SQL中,SelectDB在近半數的查詢語句上性能表現最優,成為新的性能標桿。
而SelectDB Cloud如此優異的性能背后有哪些科技支撐呢?首先,SelectDB采用MPP查詢框架,這可以充分利用多節點并行和節點內多核并行特性,支持多張大表的分布式重組,以及自適應動態執行技術;其次,向量化的執行引擎可以大幅減少虛函數調用,提高Cache命中率,高效利用SIMD指令,從而使算子的性能提升數十倍;同時,SelectDB采用了列式存儲,使得編碼、壓縮、處理都非常高效,以豐富的索引結構加速數據過濾,以物化視圖加速查詢效率,同時多種存儲模型可以實現不同場景的優化;最后,SelectDB采用RBO和CBO結合的智能優化策略實現性能和效率并重,以短路徑優化數萬個并發點查詢。依靠這些核心技術,SelectDB Cloud成為一款可以在全球市場與一流品牌相媲美的中國新一代云數倉產品。
在用戶感知里,高性能往往伴隨著高成本。但是,SelectDB Cloud區別于同類產品的一大優勢恰恰就是極致的性價比。SelectDB Cloud依托全新的云原生架構設計將成本降低。它全新的存算分離架構,實現了本地磁盤緩存和對象存儲的分層分級存儲引擎,也實現了計算分離,以及計算資源根據業務的波峰、波谷特點隨需彈性擴縮容。這些技術使得SelectDB Cloud的綜合成本低至自有部署成本的20%~50%,而性能依然比同類產品快至少1.5倍。當前,不少客戶已經享受到SelectDB產品的收益,例如SelectDB幫助海程邦達完成了數倉構建,在供應鏈物流業務的多樣分析場景中,查詢延時從56.6s降低到0.649s,查詢時間足足降低了99%。
除了高性價比,融合統一也是SelectDB Cloud的一項賣點。SelectDB Cloud致力于解決湖倉并存方案的復雜性和冗余性。傳統的企業因系統過多、架構復雜而存在組件多、接口多、維護困難、資源浪費等問題。相比較而言,用戶僅需安裝SelectDB Cloud一個系統就可以滿足多種負載,還能同時支持結構化和半結構化數據分析,以及負載隔離,大大提高了計算效率。而這背后的技術優化來源于3個核心技術,即混合負載、結構化和半結構化數據支持、湖倉一體。
除了上述優勢,SelectDB Cloud兼容MySQL連接協議、面向管理員簡單便捷的管理控制臺、豐富的數據導入方式、分層的用戶權限體系、安全便捷的連接方式、開源開放、多云中立等特色,都能很好地滿足眾多行業用戶尤其是傳統行業用戶的建設需求。
時至今日,SelectDB已經為很多客戶提供了產品和服務。在互聯網、物流、金融、汽車、交通、零售、制造等領域,幫助用戶落地數倉平臺,解決業務分析、運營管理、用戶洞察、智能決策等多方面需求。例如趣頭條、海程邦達、航旅縱橫、安踏、BOSS直聘、360數科等諸多知名企業已經開啟SelectDB云數倉應用之旅。
創新產品是為了價值賦能!SelectDB將堅持“開源+云”的產品戰略,以及開放共贏的合作服務理念,踐行“技術普惠”和“價值賦能”。我們愿與全球用戶和合作伙伴一起迎接挑戰,秉承謙遜之心,持續保持創新,共同勾勒云數倉的未來!為數而生,因云而新,未來一路同行!
連林江
SelectDB創始人兼CEO