云計算憑借其強大的分布式計算能力,可伸縮的特性以及低成本高可靠性的優勢, 在海量數據處理方面占據優勢地位。但是日常所產生的數據并非都是需要隨時存取的,事實上,我們依賴于云服務進行存儲的數據,大多數都不是需要頻繁訪問的熱點數據,大量的數據被存儲后訪問頻率很低(例如數據歸檔, 長期備份等場景,平均一年訪問一次甚至更低),這時候我們可以將這些不再經常使用的“冷數據”轉移到一種成本更低的存儲設備來進行長期保存,我們稱這種存儲為歸檔存儲。歸檔存儲安全、持久且成本極低,為了保持成本低廉,數據取回時間可能需要花費數小時。
在數據歸檔領域,傳統的磁帶庫或是藍光盤庫介質在過往一直是首選,這些磁帶或者光盤一旦存儲了數據,就意味著數據進入到數據中心某個不起眼的角落中,如無必要的話,這些數據將通常會進入到“沉睡”階段,有些數據甚至幾十年都不再被讀取使用。如今數字經濟的背景下,冷數據的價值挖掘受到了越來越多的關注,靈活的數據檢索,準實時的數據取回能力,也成為了新時代數據歸檔場景的核心需求。
UCloud19年上線的歸檔存儲為對象存儲US3提供了一套極低價格的數據存儲系統,該系統具備存儲速度快、可靠性高、數據取回靈活等特性,以下是該系統的介紹。
硬件架構 UCloud的存儲硬件架構是采用兩個機頭連接多個JBOD的方式來組織的,一個機架里有多個JBOD和兩個機頭,每個JBOD都分別連接到兩個機頭的HBA卡上,每個JBOD容納了一百塊以上的硬盤,JBOD是存儲領域中一類重要的存儲設備,英文Just a Bunch Of Disks,意為磁盤簇,磁盤連續捆束陣列,是在一個底板上安裝的帶有多個磁盤驅動器的存儲設備。不同于RAID陣列,JBOD沒有用來管理磁盤上數據分布的前端邏輯,每個磁盤進行多帶帶尋址,可以作為分開的存儲資源,用戶可以像訪問普通硬盤一樣,訪問JBOD中的任意一塊硬盤。JBOD在近幾年被一些廠家提出,并逐漸被廣泛采用。
硬盤的選擇上我們首選HM-SMR(Host-Managed-SMR)盤,當然也兼容普通的CMR盤,SMR盤的優點是成本低廉,但是不支持隨機讀寫,上面的數據按固定的大小(通常是256MB)被分為一個個的Zone,只有1%的CMR Zone是支持隨機寫的,剩余99%的SMR Zone都是只支持順序寫的,數據的擦除也是以Zone為單位的,這種盤的缺點是不適用于頻繁更改性寫入,但用來存儲大容量,修改少的數據卻十分合適,且成本低于普通HDD盤,適合作為UCloud歸檔存儲的存儲介質。
兩個機頭用于管理連接在上面的JBOD和硬盤,裝有操作系統,它們之間是主從關系,主機頭負責接收IO請求,主機頭故障后,從機頭接替成為主。
存儲的成本其中還有非常顯著的一部分是電力的開銷,如果所有硬盤長時間保持全部上電狀態,將帶來比較大的一筆電力開銷,考慮到我們歸檔存儲寫多讀少的特性,且寫入都是追加寫,速度很快,少量的硬盤就可以充分利用網絡帶寬,所以我們的設計目標是在正常使用的情況下可以做到大部分的硬盤處于下電狀態,只有少部分硬盤處于上電狀態提供IO,在5年的質保期間保證50k的上下電頻率,平均下來是小時級別。為此,UCloud在軟件架構上設計了一套上下電調度策略,具體后文會有講解。
軟件架構 冗余策略 常用的冗余策略有副本和糾刪兩種方式,為了達到節省成本的目的,UCloud歸檔存儲采用的策略是對數據進行糾刪分片,又由于硬件架構上的較多硬盤配置,以及異步寫的原因,我們采用了較大的EC比例。 Blob 考慮到前面提到的SMR盤的Zone和糾刪條帶的設定,我們引入了Blob這一概念, 例如采用大比例的EC糾刪策略, 把綜合考慮Zone和EC比例的數據劃分到一個Blob,這樣刪除或壓縮數據時可以以Blob為單位來進行。 磁盤組 我們把整個系統的磁盤分成了一個個邏輯的磁盤組。一次IO的所有糾刪分片都在一個磁盤組中,一個Blob也只屬于某一個磁盤組,例如23+3的糾刪分片,那么一個磁盤組就包含26塊盤, 且上電,下電也是以磁盤組為最小單位的。當上層來了寫IO時,為了避免磁盤組頻繁上下電,會讓一個磁盤組持續服務寫操作,當該磁盤組寫到一定的量后,按輪詢策略挑選下一個磁盤組進行上電。
元數據
我們利用每塊硬盤那1%的支持隨機讀寫的CMR Zone來存儲元數據信息,元數據信息包含兩部分,Disk Meta和Zone Meta, Disk Meta用于保存整個磁盤的元數據,包含唯一標識這塊盤的Disk ID, 屬于哪個JBOD,有多少個Zone,以及Zone Meta在磁盤中的偏移和長度等。Zone Meta用于保存這塊盤每個Zone的元數據信息,包括這個Zone是第幾個,有沒有被使用等。
歸檔服務啟動時,通過加載Disk Meta和Zone Meta在內存中構建每個Blob的信息。
上下電調度策略
為了節省電力成本,所有磁盤組并不是保持長期上電狀態的,當沒有讀IO時,只有當前負責寫的磁盤組處于上電狀態,當這個磁盤組寫到一定量后,切換到下一個寫磁盤組上電,原來的寫磁盤組安排下電。對于讀IO,分為非緊急讀和緊急讀兩種,如果是非緊急讀,且這個讀IO對應的磁盤組處于下電狀態,則為這個磁盤組加一個讀標記,每小時輪詢所有磁盤組,將有讀標記但處于下電狀態的磁盤組上電,已處于上電狀態的磁盤組如果超過一定時間沒有收到IO請求會安排下電,也就是說,對于非緊急讀,最多需要數個小時的時間來等待磁盤組上電,而對于緊急讀IO來說,如果這次IO對應的磁盤組處于下電狀態,則立即安排上電,進行數據讀取,并且在1小時內不安排下電,用額外的電力成本提供了緊急讀的服務。
IO流程
上層IO的數據通過計算被切割成一個個EC分片(如果數據大小沒有按EC條帶對齊需要填0),分別派發到其對應磁盤組的每個磁盤上,如果是非緊急讀IO可能需要等待對應的磁盤組上電后進行重試,如果是寫IO,當一個Blob寫滿后,也就是磁盤組中每個磁盤的當前Zone被寫滿后,會切換到下一個Zone,分配下一個Blob開始寫,寫成功后向上層返回這次IO對應的Blob編號和在這個Blob內的偏移,用于上層組織文件的元數據信息。
數據保存
數據在磁盤上是以4KB大小的Sector為單位寫下去的,每個IO所攜帶的數據經過EC計算后落盤時,都會被拆分成一個個Sector, 且在每個Sector的尾部都填充了一塊Sector Meta,用于記錄這個Sector的元數據信息,包括這個Sector對應了第幾個Zone,以及這個Sector上數據的crc等,這樣可以防止硬盤的靜默錯誤。
周期性數據檢查
歸檔服務啟動后會周期性掃描已經寫滿的Blob,對這個Blob的每個Sector進行數據校驗,這一過程利用了上文提到的每個Sector 尾部的Sector Meta里保存的crc,校驗失敗時會上報錯誤,通知到相關運維人員進行處理。
總結 這套歸檔存儲系統在保證了高性能、安全的前提下,大幅地優化了成本。非常適用于一些數據量大但訪問頻率不高的存儲場景,比如保存一些下載量少的多媒體數據,大型數據庫、日志、用戶資料的備份等等。目前,UCloud歸檔存儲服務已經于2019年上線,且穩定運行多年,預計隨著更大范圍的應用,將會更大幅度地節省存儲成本。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/128389.html
摘要:對此,存儲產品經理周恭元在月日剛結束的技術分論壇上帶來了海量數據云歸檔存儲最佳實踐的議題分享,圍繞企業數據歸檔面臨的存儲問題及需求,重點介紹了數據存儲的分層價值,以及新一代歸檔存儲的可靠性優勢及三大適用場景。隨著互聯網科技的不斷進步,產生的數據將以成倍速度進行增長,據IDC預測,到2025年全球數據總量將會達到175ZB。如果要把175ZB用8TB的磁盤存下來的話,那就需要230億塊磁盤來存...
摘要:目前,對象存儲是這些海量非結構化數據最好的存儲載體。宋體做式的對象存儲宋體是年推出的對象存儲產品。宋體二業務低成本宋體對象級別的分層存儲宋體采用專門的存儲機型,存儲密度更高,單位存儲的成本最低可降到計算機型的。隨著 5G+IoT 時代來臨,產生數據的主角除了人類還有海量的物理設備,相比 4G 移動互聯網的短視頻、直播等,會有更大量的數據產生。據 IDC 發布的《數據時代 2025》的預測,全...
摘要:更多歸檔存儲類型的使用說明請參考數據歸檔方案。控制臺快速上手注產品已作為歸檔存儲類型合并至對象存儲,目前不再向新用戶提供獨立的歸檔存儲服務。創建歸檔存儲空間登錄控制臺,選擇右側歸檔存儲后進入歸檔存儲列表頁,選擇創建歸檔存儲空間按鈕。使用場景注:UArchive 產品已作為歸檔存儲類型合并至 US3 對象存儲,目前不再向新用戶提供獨立的歸檔存儲服務。如需使用更低成本的對象存儲服務,請至 US3...
隨著數據量的增長、數據來源途徑的多元化,企業用戶需要考慮到私有云與公有云數據存儲的統一性管理,從而隨時隨地能夠從數據存儲平臺上獲得用戶所需要的數據,為業務創新帶來敏捷的數據價值。當前行業用戶對混合云的需求越發明顯,云廠商也是不斷推動混合云解決方案在百行百業中的深入發展,從而,讓混合云與以軟件定義為主導的存儲顯得越來越密不可分。因而,就帶來了一個重要的混合云治理話題:混合云架構下,如何讓數據存儲無邊...
摘要:三是可以降低我們的寫放大,在寫入時不會由于需要更新元數據而寫入兩次,這在隨機能力不是強項的硬盤場景下也格外重要。前言UCloud在2020年8月正式發布了基于US3的全新一代歸檔存儲產品,該產品采用UCloud全新自研存儲架構,相較標準存儲降低近80%存儲成本的同時,與市場同類歸檔存儲產品相比降低近30%的價格。據IDC的預測,全球年新增數據量到2025年將達175ZB,真正能存儲下來的數據...
閱讀 430·2024-11-07 18:25
閱讀 130683·2024-02-01 10:43
閱讀 923·2024-01-31 14:58
閱讀 893·2024-01-31 14:54
閱讀 82948·2024-01-29 17:11
閱讀 3224·2024-01-25 14:55
閱讀 2036·2023-06-02 13:36
閱讀 3133·2023-05-23 10:26