伴隨著全球化電子商務、無紙化辦公和云計算的大規模開展,在各種應用系統的存儲設備上,信息正以數據存儲的TB甚至是PB級方式高速增長。正如EMC CEO喬圖斯對股東們說的那樣“IT行業出現了最勢不可擋的兩種趨勢:云計算和海量數據”。伴隨著云計算的迅猛發展,海量數據的高效存儲需求和管理成為一個研究的重點。高效存儲不僅可以為用戶提供更高效的存儲,而且還可以降低用戶成本,實現高效低碳的環保型存儲。
隨著綠色IT的提出,存儲系統作為IT架構的重要組成部分,當仁不讓地承擔了節能降耗的重擔。浪潮存儲及時退出了自己的產品LiveStor,LiveStor系統解決了用戶的需求,滿足了對數據的高效存儲和管理。本文基于LiveStor系統對大數據量存儲常用策略進行分析研究,這其中主要用到了多協議訪問技術、存儲虛擬化、自動精簡配置、重復數據刪除和分級存儲等關鍵技術。
1.高效存儲技術特點分析
1.1 海量數據存儲的特點
伴隨著云存儲等技術的發展,各企業對數據的存儲和管理顯得尤為重要。高效、低碳、易管理的存儲解決方案成為浪潮存儲研究的一個重要方向,浪潮存儲與其他傳統的存儲相比具有以下優勢:
1)易于擴展、成本低廉:存儲系統支持自動精簡配置,可以很方便地支持擴充容量。減少各單位存在的硬盤空問浪費,用戶根據自己的需要向服務器彈性地申請所需要的空間,降低了用戶的使用成本。
2)方便管理、可靠性高:易于管理是存儲系統設計時重點考慮的問題,數據采用集中存儲的方式。由數據中心的管理員對數據進行統一管理、數據保護、安全控制,并能更可靠地進行數據的遠程復制和備份還原,降低了數據風險。
3)高效存儲:支持多協議訪問技術,用戶可以通過SAN和NAS存取自己數據,支持重復數據刪除技術,提高存儲的利用率。
1.2 存儲虛擬化
存儲虛擬化是將零散的存儲資源整合起來,構建海量存儲資源池。從而提高整體的利用率,同時降低系統的管理成本。其基本思想是將資源的邏輯映像與物理存儲分開,從而為系統和管理員提供一簡化、無縫的資源虛擬視圖,這其中一個鶯要的概念就是存儲池。存儲池屏蔽了底層存儲的差異,使用戶屏蔽具體磁盤、磁帶等存儲設備的差異,也不必關心自己的數據經過哪一條路徑通往哪一個具體的存儲設備。存儲虛擬化可以提高存儲空間的利用率,與傳統的空間管理和靜態虛擬化空問管理相比,動態虛擬化空間管理是后端存儲具有更高的利用率,如圖1所示,LiveStor是采用動態虛擬化空間管理策略來實現存儲的。
圖1 存儲虛擬化管理
例如,給用戶A和B提前分配好100GB的存儲空間。真正使用時,用戶A可能不到5GB,而用戶B可能需要190GB,這樣真實的物理存儲如果最開始是200GB時,靜態虛擬化無法滿足需求。需要對用戶B的容量擴展至190GB滿足需求,總物理容量將達到100+190=290GB,分配的容量利用率為195/290=67.2%;基于動態虛擬化管理技術的LiveStor,物理容量為200GB組成資源池,在存儲池上建立邏輯卷,用戶A和用戶B所在卷組分別為vol1和vol2。分別為200GB,用戶A只消耗5GB,則只分配5GB,用戶B消耗190GB,則分配190GB,最終利用率達到195/200—97.5%,該方案大大提高了利用率。
1.3多協議支持
后端存儲通過LiveStor可以向服務器提供SAN和NAS服務,方便用戶的使用和數據的存儲,提高了后端存儲的高可用性,如圖2所示。NAS服務支持ftp,samba,nfs功能,可以為用戶提供可靠的文件級數據整合,提供存儲資源;SAN服務可以為用戶提供FC SAN和IP-SAN服務,FC-SAN針對對數據帶寬有較高要求的用戶,為用戶提供快速、高效的塊級應用,提高了存儲的性能,IP-SAN技術簡單、低成本,基于標準的TCP/IP協議,在以太網上為用戶提供塊級的應用。
圖2 支持多協議平臺
1.4 自動精簡配置
隨著企業規模的發展。需要的數據空間會隨著業務的擴展而增加,然而一個企業開始規模還是比較小的,不需要太多的存儲空間,如果開始就要購置5年后的存儲空間,既浪費了財力和初始構建的成本,也會造成大量空間的浪費和電力的消耗,自動精簡配置可以解決這些問題,比如在部署了自動精簡配置之后,存儲系統可以為用戶提供2TB的邏輯單元,而實際上只有1TB的物理空間可被分配,如圖3所示:
圖3 自動精簡配置
自動精簡配置能夠將存儲空間利用率從60%提升到80%,推遲用戶磁盤擴容的時間、減少磁盤購買數量,減少環境對存儲的壓力,降低總體實現成本,從而降低系統的整體能耗、冷卻成本、以及二氧化碳排放量,符合綠色存儲的要求。
LiveStor提供El志、郵件和SNMP Trap 3種告警機制,當物理空間存儲池的利用率達到一定閾值時就會向管理員發送告警,當實際空間已經沒有空余,在新磁盤被添加之前,卷訪問將被鎖定,當存儲池告警之后。存儲管理員需跟據實際存儲容量狀況添加新的磁盤進行擴容以確保系統的連續性。
1.5 重復數據刪除
隨著存儲技術的不斷發展,重復數據刪除成了主存儲系統中高效存儲的一個重要技術點,重復數據刪除可以降低存儲系統的采購成本、節約電力、減少散熱。重復數據刪除技術主要有3種類型:文件級重復數據刪除、塊級重復數據刪除、字節級重復數據刪除。
LiveStor采用基于散列的塊級重復數據刪除技術,它把需要存儲的數據分成固定的數據塊,然后為每個數據塊生成一個獨特的指紋,如果新數據塊的指紋與設備散列索引中的某個散列匹配,僅存人指針,并指向存儲相同數據塊的原始位置,如果數據塊是唯一的就被寫入磁盤,其指紋也存入索引中。這種方法用小容量的指針替代重復的數據塊,而不是將重復數據塊再次寫入存儲,節省了磁盤存儲空間,實現流程如圖4所示:
圖4 重復數據刪除流程圖
塊級重復數據刪除采用定長塊的切分方法,每個數據塊的長度都是相同的。文件在切分時,如果切分最后剩余部分不足一個數據塊的長度,那么就向該數據塊填充空數據,如圖5所示:
圖5 定長切分
圖5中Padding表示不足一個數據塊,重刪的數據變換效果如圖6所示:
圖6 重復數據刪除前后數據變化
LiveStor系統在Web界面上顯示去重率,去重率是用來定義重復數據刪除中的優化率,等于原數據大小除以去重之后的數據大小。根據實際應用統計,一般情況下有效存儲容量是磁盤總容量的10~20倍,因此,重復數據刪除技術可以有效節省存儲空間。
2.LiveStor實現高效存儲分析
2.1 LiveStor簡介
LiveStor是新一代高效存儲系統,它通過高速光纖網絡連接后端存儲陣列,支持存儲虛擬化、支持SAN存儲網絡架構和NAS的多協議存儲、支持自動精簡配置、支持重復數據刪除功能,具有高性能、高可用性、易用、易管理的特點。LiveStor能提高存儲性能,減少環境的壓力,降低總體實現成本,降低能耗和降低二氧化碳排放量,符合綠色存儲的要求。
LiveStor不僅提供高效存儲,還能基于快照技術為用戶提供本地邏輯分區的持續數據保護,結合本地CDP提供遠程復制和恢復功能,滿足生產運行的連續性和災難恢復的需求,最大程度地保護用戶數據安全。
2.2 自動精簡的屬性設置
LiveStor建立的NAS分區可以創建大于物理存儲的邏輯卷,各個邏輯卷共享整個存儲池的大小,LiveStor使用set quota設置邏輯卷的大小。
LiveStor建立的SAN分區可以創建大于物理存儲大小的邏輯卷,建立的分區大小是自己設定的,獨立于存儲池大小之外,但可用存儲池的大小還是原來存儲池的大小,只是在分區顯示時存儲池的利用率是假象還是真實的情況,使用zfs create—S—b128K—V設置邏輯卷的大小。映射出來的磁盤就是自動精簡配置設置的大小,但可用的容量還是原來總存儲池的大小,當LiveStor管理員通過設置的存儲池告警獲得警告信息,就要按需擴容后端存儲,添加硬盤,為用戶提供持續可用的高效存儲。
2.3 重刪技術的屬性設置
LiveStor的重刪功能是基于塊級的重復數據刪除,LiveStor默認使用的是SHA一256,不作校驗。它利用SHA一256哈希函數提供數據塊級重復數據刪除功能,開啟重復數據刪除的LiveStor需要較強的處理能力(比如多核處理器),因此提高處理器能力和內存就可以提高重復數據刪除的速度。
LiveStor對重復數據刪除技術設置了3個屬性值,分別為on,off,verify。當屬性設置為on時,這種方法是在重刪技術中速度最快的,因為它是按塊的哈希值進行對比重刪的,但是這種重刪存在2*256的可能性將不同的數據作為相同的哈希值來刪除。為了確保散列重復數據刪除的安全性,可以將重刪功能的屬性值設為verify,讓存儲數據進行全部字節對比。針對重復數據刪除,也可以使用改進的、簡單的散列算法來減少所需的處理能力,并將它與驗證功能結合在一起以提高重復數據刪除的整體速度。
LiveStor重復數據刪除功能可根據文件系統的大小進行調整塊的大小,LiveStor設置塊大小為128 KB,塊的大小可以自動配置,LiveStor的重刪技術可以有選擇地設置,可以針對包含重復多的數據,在存儲時就進行重復數據刪除工作,節約硬盤的使用,對重復數據少的數據不進行重刪,提高數據的讀寫速度。
3.基于塊級重刪的高效存儲的性能分析
實驗是將后端存儲映射給LiveStor存儲系統,在其上建立存儲池和邏輯分區,將邏輯分區通過光纖再映射給服務器作為客戶端,利用Iometer(2006)對具有存儲虛擬化、自動精簡配置和重刪的LiveStor分區進行性能測試,添加standard。icf腳本,進行裸盤測試,對運行Iometer(2006)并保存測試數據進行分析,測試結果如圖7~10所示(其中off為邏輯分區和存儲池的重刪功能關閉的狀態,on是指邏輯分區和存儲池采用sha一256校驗算法開啟重刪功能,verify是指邏輯分區和存儲池采用按字節比對的重刪功能)。
圖7 3種情況下順序讀的性能
圖8 3種情況下順序寫的性能圖
圖9 3種情況下隨機讀的性能
圖10 3種情況下隨機寫的性能
通過以上對LiveStor存儲系統在隨機讀、隨機寫、順序讀以及順序寫的性能比較可以看出,在集成了自動精簡配置和重復數據刪除技術的邏輯卷的帶寬還是比較穩定的,最高的帶寬達到了388.721 469 MBps,具有較高的性能保證。
4.總結
本文基于LiveStor系統對大數據量存儲常用策略進行了分析研究,滿足了當今IT發展的需求。大數據的高效存儲和管理不僅為用戶提供更高質量的服務,而且還可以降低用戶成本,實現高效低碳的環保型綠色IT,也為云計算和云存儲的存儲方案打下了堅實的基礎。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.vmgcyvh.cn/
本文標題:一種高效存儲解決方案的分析與研究