官术网_书友最值得收藏!

1.4 網絡化存儲

數據量的大幅增長為存儲系統設計帶來了新的挑戰,要求有更多的存儲設備存放不斷增加的數據,同時也需要在多個用戶之間實現數據共享,以提高存儲系統的利用率。另外,管理海量數據需要占用相應服務器的大部分處理能力,這就推動了獨立于單個主機的專用存儲系統的出現。在充分吸收網絡技術的基礎上,大容量、可共享、可擴展的網絡存儲系統應運而生。

1.4.1 網絡存儲架構

在海量信息的發展背景下,網絡存儲逐漸成為大規模存儲系統的基本體系結構,網絡存儲架構主要有直連式存儲、網絡連接存儲和存儲區域網絡等。

1.直連式存儲(DAS)

直連式存儲的全稱是Direct Attached Storage,簡稱DAS,是一種存儲設備直接通過總線適配器和電纜(SCSI或FC)連接到服務器的架構,典型DAS的結構如圖1-5所示。DAS依賴于服務器,本身不帶有任何存儲操作系統。主機的內部磁盤、磁帶庫和直接連接的外部磁盤組,都是一些DAS實例。

圖1-5 典型DAS結構圖

根據存儲設備相對于主機的位置,直連式存儲可以分為內置和外置兩種。在內置DAS架構里,存儲設備通過串行或并行總線連接主機,但總線自身有傳輸距離和掛載設備的限制。在外置DAS架構里,服務器直接連接到外部存儲設備,相比于內置DAS,外置DAS克服了距離和掛載設備數量的限制。

對于少量PC或服務器,使用DAS連接簡單、易于配置和管理、價格較低。相對于其他網絡存儲架構,DAS是最簡單的解決方案,所需的管理任務更少,需要設置和操作的硬件和軟件也更少。但是DAS對服務器依賴性太強,要求每臺計算機單獨擁有自己的存儲磁盤,這不利于存儲容量的充分利用和服務器間的數據共享,而且DAS方式下數據依然是分散的,不同的應用各有一套存儲設備,沒有統一的管理方案,不利于數據的維護,因此DAS不適合作為企業級的存儲解決方案。

2.網絡連接存儲(NAS)

隨著網絡的發展、數據量和客戶端的增多,對服務器的存儲能力和訪問性能提出了新的挑戰。這種情況迅速導致了服務器的專一化,進而導致了服務器和存儲設備的分離。

網絡連接存儲的英文全稱是Network Attached Storage,簡稱NAS,它的核心思想是將存儲設備從服務器上分離出來,在網絡中提供專門負責文件服務的服務器,從而減輕網絡其他服務器的負擔。NAS是一種專用的、高性能的、高速的網絡文件存儲備份設備,使用網絡和文件共享協議實現文件歸檔和存儲等功能。共享協議包括用于數據傳輸的TCP/IP以及用于遠程文件服務的CIFS和NFS協議,可以為不同文件協議客戶端提供集中式服務。

NAS有自己簡化的實時操作系統,它將硬件和軟件有機地結合在一起,用以提供文件服務,如圖1-6所示。它主要由客戶端、NAS服務器和存儲設備三部分組成。其中,NAS服務器主要負責響應文件請求。通過網絡接口,NAS服務器的一端通過以太網接口連接到前端局域網,另一端通過ATA、SATA或FC等存儲設備接口與后端存儲設備相連。存儲設備通常由高性能的磁盤陣列組成。

圖1-6 NAS的構成

NAS的軟件構成主要包括操作系統、文件協議和存儲管理軟件。其中NAS操作系統是通用操作系統的簡化版,它只保留了操作系統的文件服務功能和相關文件通信協議,負責管理NAS設備的硬件和軟件資源。目前,NAS操作系統主要有各種Windows版、FreeBSD/Linux版、VxWorks版以及實時操作系統RTOS。NAS目前采用的文件協議是NFS和CIFS。其中NFS應用在UNIX環境下最早由Sun公司開發;CIFS應用在NT/Windows環境下由微軟公司開發。

NAS的結構以及采用的各種協議使得NAS與傳統存儲技術相比具有以下優點:

1)用戶直接訪問NAS,減少了通用服務器成為網絡瓶頸的概率。NAS具有更好的擴展性和靈活性。存儲設備不受地域限制,在不同地點都可以通過物理連接和網絡連接連起來。

2)支持跨平臺存放文件數據和共享訪問。基于TCP/IP的數據傳輸使得NAS可以支持網絡文件系統,不同操作系統可以實現文件共享。

3)使用專用的、經過優化的操作系統,不僅響應速度快,而且數據傳輸速率也更高。

4)由于是專用硬件構造的專用服務器,不會占用網絡服務器的系統資源,不需要在服務器上安裝任何軟件,當增加或刪除NAS設備時不會中斷網絡的運行,安裝和使用更為方便,是一種即插即用的網絡設備。

5)NAS獨立于主服務器,因此對主服務器沒有任何需求,這大大降低了主服務器的投資成本。

在實際應用中,NAS也表現出了一些缺點。首先,隨著網絡中數據流的不斷增大,NAS在LAN上傳輸數據時,會將大量的整塊數據劃分成多個數據包。這樣會造成對NAS處理資源占用率過大,進而直接影響NAS對用戶請求的響應速度和存儲服務的提供能力。其次,NAS設備與客戶端通過企業網絡進行連接,因此數據備份或存儲過程中會占用網絡的帶寬,若用戶頻繁使用網絡時,NAS的備份機制出現問題,對用戶網絡來說會產生很嚴重的后果。

NAS設備近些年在海量數據存儲、異地備份容災、網絡存儲平臺、軍用存儲等方面得到了廣泛的應用,各種NAS產品也應運而生。其中NetApp公司掌握了全球最先進的NAS方面的相關技術,它的FAS系列產品統治了NAS市場的大半江山。近年來初露鋒芒的BlueArc公司在其NAS產品Titan系列中,將其運行的所有軟件邏輯都寫入EPGA中,使得系統處理速度越來越快。除此之外,EMC、IBM、HP、Sun、Veritas等公司均推出了自己的NAS產品。

3.存儲區域網絡(SAN)

存儲區域網絡的英文全稱是Storage Area Network,簡稱SAN,它是一種高速專用網絡,用于連接存儲設備和服務器,一般采用光纖通道協議作為底層通信協議。SAN的發展歷程較短,從20世紀90年代后期興起,由于當時以太網的帶寬有限,早期的SAN存儲系統多數由FC存儲設備構成,隨著千兆以太網的普及和萬兆以太網的實現,基于iSCSI協議的IP SAN浮出水面并不斷被人們認可。

SAN實際上是一種專門為存儲建立的獨立于TCP/IP網絡之外的專用高速網絡,其結構如圖1-7所示,主要包括如下幾個部分:

圖1-7 SAN結構示意圖

1)SAN服務器:服務器基礎結構是所有SAN解決方案的前提,這種基礎結構是多種服務器平臺的混合體,包括Windows NT和不同風格的UNIX等。

2)SAN存儲設備:存儲基礎結構是信息所依賴的基礎,新型的基礎結構應該能夠提供更好的網絡可用性、數據訪問性和系統管理性。因此,SAN解放了存儲設備,使其不依賴于特定的服務器總線,而且將其直接接入網絡。SAN還支持存儲設備的集中化和服務器群集,使其管理更加容易,費用更加低廉。

3)SAN連接設備:實現需要考慮的第一個要素是,通過光纖通道之類的技術實現存儲和服務器組件的連通性。實現LAN和WAN所使用的典型組件有擴展器、集線器、路由器、網橋和網關等。與LAN一樣,通過存儲接口的互連形成很多網絡配置,并能夠跨越很長的距離。

4)SAN管理軟件:其管理服務器、互連設備以及存儲設備之間的接口,它提供SAN環境的一個可視化視圖,并且可以在一個中心控制臺進行多種資源的集中管理。

FC SAN是一種典型的SAN結構,它以光纖為傳媒介質,具有傳輸速度快、可靠性高、傳輸距離遠等特點,它將存儲設備從傳統的以太網中分離出來,成為獨立的存儲區域網絡,服務器可以訪問存儲區域網絡上的任何存儲設備,同時存儲設備之間以及存儲設備與SAN交換機之間也可以進行通信,其體系結構如圖1-8所示。

圖1-8 FC SAN體系架構

利用SAN,不僅可以提供大容量的存儲數據,而且地域上可以分散,緩解了大量數據傳輸對局域網的影響。SAN結構允許任何服務器連接到任何存儲陣列,不管數據置放在哪里,服務器都可直接存取所需的數據。

SAN的主要優點是:

1)高性能、高速存取,可實現高速計算機與高速存儲設備的高速互連。目前FC可提供2Gbit/s的帶寬,新的10Gbit/s的標準也正在制定之中。

2)高可用性。網絡用戶可以通過不止一臺服務器訪問存儲設備,當一臺服務器出現故障時,其他服務器可以接管故障服務器的任務。

3)集中存儲和管理。通過整合各種不同的存儲設備形成一個統一的存儲池,向用戶提供服務,存儲容量可以很容易地擴充。SAN提供了大容量存儲設備共享的解決方案。

4)可擴展性高。服務器和存儲設備相分離,兩者的擴展可以獨立進行。理論上擴展不受限制,并且支持在線擴展,擴展的同時也保證了可靠性和安全性。通過FC網卡、集線器、交換機等互連設備,用戶可根據需要靈活地配置服務器和存儲設備。

5)可實現數據快速備份,并且數據備份不占用LAN帶寬。

6)可兼容以前的各種SCSI存儲設備,保護用戶以前的投資。

基于SAN的各種優點,它主要用于存儲量大的工作環境(如ISP、銀行等),其應用主要歸納為:構造集群環境,利用存儲局域網可以很方便地通過FC把各種服務器、存儲設備連接在一起構成一個具有高性能、高數據可用性和擴展性強的集群環境;可以做到無服務器的數據備份,數據也可以以后臺的方式在SAN上傳遞,大大減少了網絡和服務器上的負載,因此可以很方便地實現諸如磁盤冗余、關鍵數據備份、遠程集群、遠程鏡像等許多防止數據丟失的數據保護技術;可以方便地進行兩個存儲設備之間的數據遷移以及遠程災難恢復。從1999年開始,EMC、IBM、Compaq、Sun、HP等公司相繼推出自己的SAN產品。近年來,SAN技術得到了長足發展。

4.基于IP的存儲區域網絡(IP SAN)

傳統SAN的互聯技術是Fiber Channel(FC),但是其在實現成本、設備的互操作性、跨越的地理距離等方面阻礙了SAN的發展。同時,遠程數據備份、容錯、災難恢復等應用的發展也要求SAN跨越的距離越來越遠,因此傳統的SAN環境已無法滿足當前應用的發展。為了尋求一種比較經濟而又能夠實現SAN存儲的高性能的存儲方式,人們開始探索IP網絡技術和SAN結合,于是IP SAN出現了。

IP SAN是基于IP網絡實現數據塊級別存儲方式的存儲網絡,是一種將存儲設備、連接設備和接口集成在一個高速網絡中的技術。它可以利用現成的網絡架構、協議、標準、基礎設施和管理工具,在一定程度上解決SAN存在的高成本和難管理的缺陷。

與傳統的FC SAN相比,IP SAN有其優勢,也有它的不足。其優勢主要體現在以下幾點:基于成熟的IP技術,在一定程度上保護了現有資產,降低了配置、維護、管理方面的復雜度;IP存儲超越了地理距離的限制,大大延伸了傳統并行SCSI存儲的距離限制;可以預期的10Gbit/s以太網的推出將極大地改善IP存儲的服務性能。

IP SAN的不足主要有以下幾點:IP存儲的產品總體上還不成熟,用戶可選擇余地較小;目前IP SAN的實現還比較困難,需要一些專門的驅動設備和相關知識的幫助;由于IP網絡尤其是以太網本身的效率較低,因此IP存儲比較消耗系統資源。

目前主流的基于IP的存儲方案包括互聯網小型計算機系統接口(internet Small Computer System Interface, iSCSI)、互聯網光纖通道協議(internet Fiber Channel Protocol, iFCP)和基于IP的光纖通道(FCIP)方案。這三種IP存儲方案都有成本低、靈活性強、可管理性好、距離適中以及對以太網技術有良好支持的特點。

5.基于InfiniBand的SAN存儲系統(IBSAN)

InfiniBand(IB)是在1999年由FutureIO和NGIO兩個標準整合而來的,它主要用于服務器、存儲設備等網絡設備間的連接。InfiniBand是一種交換結構I/O技術,其設計思路是通過一套中心機構(中心InfiniBand交換機)在遠程存儲器、網絡以及服務器等設備之間建立一個單一的連接鏈路,并由中心InfiniBand交換機來指揮流量,它的結構設計得非常緊密,大大提高了系統的性能、可靠性和有效性,能緩解各硬件設備之間的數據流量擁塞。

IBSAN是一種將InfiniBand和SAN技術相結合的存儲系統方案。IBSAN采用層次結構,將系統的構成與接入設備的功能定義分開,不同的主機可通過HCA(Host Channel Adapter,主通道適配器)、RAID等網絡存儲設備利用TCA(Target Channel Adapter,目標通道適配器)接入IBSAN。如圖1-9所示,IBSAN由處理節點(服務器)、InfiniBand通信網、I/O節點和存儲設備組成。其中處理節點提供一個或多個InfiniBand的HCA, HCA是主機的IBA(InfiniBand Architecture)接口,完成報文的收發并實現IBA所確定的各種功能。InfiniBand通信網包括交換機和路由器,連接處理節點、I/O節點和存儲設備。I/O節點是帶目標通道適配器(TCA)接口的各種I/O設備。TCA是I/O設備的IBA接口,完成報文的收發并實現IBA所確定的各種功能。存儲設備包括磁盤陣列、磁帶庫等。

圖1-9 IBSAN系統結構

InfiniBand體系結構將IP網絡和存儲網絡合二為一,以交換機互連和路由器互連的方式支持系統的可擴展性。服務器端通過HCA連接到主機內存總線上,突破了PCI的帶寬限制,存儲設備端通過TCA連接到物理設備上,突破了SCSI和FCIP的帶寬限制。InfiniBand技術目前主要被數據中心、服務提供商和集群所采用。隨著網絡存儲的高速發展,InfiniBand作為新一代的SAN互聯技術,將顯示出強大的生命力和市場應用前景。

1.4.2 分布式存儲

分布式存儲系統是將數據存儲在多個特定的節點上,通過網絡使用系統中的各個節點上的磁盤空間,并將這些分散的資源構成一個虛擬的存儲設備。傳統的網絡存儲系統采用集中的存儲服務器存放所有數據,存儲服務器成為系統性能的瓶頸,也是可靠性和安全性的焦點,不能滿足大規模存儲應用的需要。分布式網絡存儲系統采用可擴展的系統結構,利用多臺存儲服務器分擔存儲負荷,利用位置服務器定位存儲信息,它不僅提高了系統的可靠性、可用性和存取效率,還易于擴展。近年來,國內外很多機構結合自身需要開發了一些各具特色的分布式文件系統。下面簡要介紹幾個分布式文件系統。

1.PVFS

PVFS(Parallel Virtual File System,并行虛擬文件系統)是Clemson大學開發的高性能、可擴展的分布式并行文件系統。它無須特殊的硬件設備或內核支持,可以直接在普通的PC上運行。目前,很多流行的分布式文件系統都借鑒了PVFS的設計思想。

PVFS由一個管理節點、多個I/O節點和若干個計算節點組成,可以將整個分布式文件系統的元數據信息以及目錄層次結構存放在管理節點上,實現了統一的命名空間,兼容了現有文件系統的訪問方式,并提供了更高性能的數據訪問方式。

PVFS也有很多不足之處。首先,它只提供單一的管理節點。當管理節點由于異常而無法正常工作時,整個分布式文件系統就會立刻停止服務。當分布式文件系統達到一定規模后,管理節點很容易成為系統瓶頸。另外,PVFS對數據的存儲缺乏容錯機制,當某I/O節點無法工作時,存儲在該節點上的數據將會永久丟失。最后,其配置不夠靈活,無法在PVFS運行時修改系統配置信息。

2.Google FS

Google FS是Google公司為了滿足其應用需求而開發的面向大規模數據密集型應用的、可伸縮的、基于Linux的專有分布式文件系統,可以應用在大文件、連續讀、不修改、高并發的存儲場景。它運行在廉價的普遍硬件設備上,并且提供了有效的災難冗余能力,可以為大量客戶機提供高性能的存儲服務。另外,Google FS還使用了一個寬松的一致性模型,不但能很好地支持高度分布式應用,而且實現起來也相對簡單和有效。

Google FS雖然具有簡潔、可靠、高性能的優點,但是為此Google FS也付出了一定的代價。首先,中心服務器模式雖然處理邏輯很簡單,但是它有一些固有的缺點,比如極易成為整個系統的瓶頸;其次,Google FS完全采用副本策略進行冗余以提高系統的可靠性,因此會消耗更多的原始存儲。最后,64MB的存儲單元(chunk)大小雖然有利于降低網絡開銷、減少系統負載,但是有的小文件可能只有一個或者幾個chunk,這樣那些存儲了這些chunk的chunkserver(塊服務器)節點就會很容易變成熱點。

3.HDFS

HDFS(Hadoop Distributed File System)是一個基于Java、支持數據密集型應用、高度容錯、具有高吞吐量的分布式文件系統,它能夠保證應用程序可以在成百上千個低成本的商用硬件上存儲和處理PB級的數據。為了實現流式讀取文件系統數據的目標,HDFS放寬了對POSIX語義的要求,從而適用于批量數據的處理。HDFS作為一個開源項目,受到了Google FS很大啟發,目前已經在各大互聯網公司得到了廣泛的應用,百度、騰訊等公司都將HDFS作為底層存儲架構。

HDFS是一個不錯的分布式文件系統,它有很多優點,但也存在一些缺點。首先,HDFS不太適合于那些要求低延時數據訪問的應用程序。因為HDFS主要目的是處理大型數據分析任務,是為達到高的數據吞吐量而設計的,這就可能要求以高延遲作為代價。其次,其無法高效存儲大量小文件。因為Namenode把文件系統的元數據放置在內存中,所以文件系統所能容納的文件數目由Namenode的內存大小來決定。最后,HDFS不支持多用戶寫入及任意修改文件,在HDFS的一個文件中只有一個寫入者,而且寫操作只能在文件末尾完成,即只能執行追加操作。

4.Ceph

Ceph是一個新興的分布式文件系統,它的原型是一項關于存儲系統的PhD研究項目,由加利福尼亞大學的Sage Weil在2007年提出。Ceph架構設計的首要目標是高可擴展性(系統存儲量達到數百PB級別以上)、高性能和高可靠性。Ceph是開源的,遵循LGPL協議。Ceph的第一個版本在2012年6月發布,但是就目前的情況而言,Ceph無論從架構還是其工程實現上來看都不太成熟,難以在生產環境中使用。

Ceph最大的特點是分布式元數據服務器通過CRUSH,即一種擬算法來分配文件的位置,其核心是RADOS(Reliable Automatic Distributed Object Storage),即一個對象集群存儲,本身提供對象的高可用、錯誤檢測和修復功能,解決了關于擴展性方面的三個問題:動態分布式元數據管理、解耦數據和元數據,以及可靠自治的分布式對象存儲。

5.BWFS

BWFS(Blue Whale File System,藍鯨文件系統)是國家高性能計算機工程技術研究中心承擔的國家“863”重點支持課題研究成果得到的產物。BWFS采用集群技術,利用大量計算機組成一個集群體系結構,以此提供高性能計算能力和數據傳輸效率。雖然BWFS借鑒了國外一些技術,但有自己的創新。藍鯨文件系統采用了新型結構、網絡可擴展體系結構,并且采用虛擬存儲技術將多個存儲設備上的資源合并成統一的存儲空間,進行高效數據管理。BWFS目前在石油勘探處理、信息檢索與處理、數字媒體、遙感、高能物理研究等領域有廣泛的應用,為我國工業、國防、科技發展做出很大貢獻。BWFS的后續系統也一直在研究中,相信我國自主開發的分布式系統能夠為國家做出更大貢獻。

主站蜘蛛池模板: 肥西县| 闵行区| 文山县| 临泉县| 吴堡县| 垦利县| 射洪县| 连城县| 武鸣县| 金乡县| 临漳县| 平原县| 如皋市| 江安县| 大渡口区| 平山县| 巴彦县| 绍兴市| 山东省| 沙洋县| 湖南省| 襄垣县| 克山县| 贺兰县| 陕西省| 临洮县| 斗六市| 遂平县| 祁门县| 六盘水市| 青海省| 齐齐哈尔市| 泰安市| 沙田区| 渭源县| 崇义县| 高州市| 抚州市| 万年县| 金山区| 温泉县|