北京2020年9月22日 /美通社/ -- 根據IDC報告,在2014-2020年,IT從業(yè)人員數量僅僅增長1.285倍,但平均每個IT人員管理的數據量從230GB增加到1231GB,超過5倍。而在未來兩年,企業(yè)數據預計仍將以42.2%的速度增長。盡管大多數企業(yè)認為數據是企業(yè)的無形資產,然而目前企業(yè)僅捕獲了56%的可用數據,幾乎一半的數據流失掉了,如何擴展數據存儲系統(tǒng)的容量成為企業(yè)面臨的重要議題。
隨著大數據、人工智能、物聯(lián)網、5G等科技手段的不斷推進,人們已經走進數據互聯(lián)的時代。在數據需求日漸強烈的當下,邊緣設備的工藝、精度越來越高,數據采樣的方式逐漸增多,產生的數據量也快速增長,到2025年44%的數據將在邊緣和核心創(chuàng)建,將有越來越多的物聯(lián)網設備向企業(yè)輸送數據。同時,基于數據挖掘和智慧應用,數據的生產者也不再只有人和設備,數據本身也參與到了生產數據的環(huán)節(jié)中來,成為了新的數據生產者,數據的產生進入一個巨大的循環(huán),數據總量呈指數級增長。
浪潮存儲產品線總經理李輝曾表示,“人工智能、大數據、5G新技術驅動下,數據發(fā)生本質改變,從過去‘人工采集、人工干預’過渡到現在‘機器產生、機器處理’的新時代,數據量爆發(fā)式增長成為新常態(tài)。”據IDC預測,2020年全球將有超59ZB的數據被創(chuàng)建、捕獲、復制和消費,其中原始數據與復制數據(主要為機器處理產生的數據)的比率大約為1:9,未來復制數據將推動全球數據的增長,預計到2024年復制數據將達到原始數據的10倍。
這些數據來源廣泛,它對存儲有什么要求?IT人員如何管理這些迅猛增長的數據呢?
新數據時代對海量數據的存儲系統(tǒng)提出嚴苛要求
其一,高密度、大容量、可擴展。數據的爆發(fā)式增長和保存周期的延長,帶來了對存儲空間的直接需求。傳統(tǒng)的存儲架構已經無法解決如此大數據量的存儲空間問題。需要一套具有EB級擴展性、支持千億級文件并支持多種服務接口的新型存儲系統(tǒng),滿足海量、多元化數據存儲的同時,實現跨平臺無障礙對接。
其二,高可靠、高可用。存儲系統(tǒng)承擔著用戶的核心數據,與業(yè)務系統(tǒng)交互頻繁,一旦出故障,將直接影響業(yè)務系統(tǒng)的運行狀態(tài),甚至引發(fā)數據完整性、安全性問題。而大規(guī)模存儲系統(tǒng),硬件故障將成為常態(tài),對存儲集群的負載均衡,數據冗余,系統(tǒng)重建和故障排除都有著較高要求,如何有效的避免故障和高效的管理、處理故障就顯得尤為重要。
浪潮分布式存儲應運而生
面對挑戰(zhàn),浪潮存儲提出“云存智用運籌新數據”的理念,并發(fā)布了“AS13000G5超大規(guī)模數據中心級分布式存儲平臺”,幫助用戶解決海量數據的存儲問題,為用戶的數據中心打造面向未來的存儲平臺。
首先,浪潮分布式存儲系統(tǒng)基于Scale Out架構實現了容量極致擴展。浪潮分布式存儲系統(tǒng)AS13000G5,通過Scale Out橫向擴展的基礎架構,實現單存儲系統(tǒng)節(jié)點擴展數達5120個,可形成EB級海量存儲空間,支持千億數據文件管理。系統(tǒng)通過海量存儲系統(tǒng)對底層硬盤資源進行池化,形成統(tǒng)一資源池,同時提供文件存儲、對象存儲、塊存儲、大數據四種存儲服務,支撐上層多種應用,承載多元化的海量數據。依賴橫向擴展的分布式存儲架構,存儲性能隨容量擴展而線性提升,從而達到千萬級IOPS和百GB帶寬的極致性能。
其次,浪潮分布式存儲依托多項高級功能優(yōu)化容量資源利用率。依托強大的研發(fā)實力,浪潮AS13000G5分布式存儲在研發(fā)過程中實現多項技術突破,并演進迭代成為功能特性,進一步提升大規(guī)模存儲集群的整體可用性、可靠性。
一是高級糾刪。浪潮存儲基于高級糾刪技術將空間利用率相較三副本提升2倍以上,在保障空間利用率的前提下,升級磁盤故障的可靠性。同時,支持通過故障域劃分技術將一個故障單元劃分成兩個邏輯的故障單元,使得糾刪策略的配置更加靈活;
二是數據均衡。浪潮存儲采取全局一致性容量均衡技術,通過為每個硬盤增加引用計數,保證數據在集群所有硬盤中均勻分布??刂朴脖P容量使用率偏差在2%以內,系統(tǒng)容量實際利用率最高可達98%;
三是急速拷貝。浪潮存儲基于急速拷貝技術,無論文件大小都可以瞬間完成拷貝操作,一個源文件可以拷貝成多個目標文件,每個文件的數據只在修改時復制,節(jié)約空間;
四是元數據集群。浪潮存儲通過部署多個active元數據服務,優(yōu)化元數據服務的內存占用及多服務間負載均衡,提高元數據并發(fā)處理能力。實現海量元數據管理的同時,提升元數據處理性能;
五是快速重構。浪潮存儲在硬盤發(fā)生故障時數據重構速度最快可達4TB/h,支持根據業(yè)務情況配置重構速度,采用合理的重構策略。
極致容量下的極易管理
存儲集群在大規(guī)模部署的情況下,運維的量級和難度對用戶來說都是極大的挑戰(zhàn)。浪潮智能統(tǒng)一存儲管理平臺InView面向全系浪潮存儲平臺實現管理,采用大數據和AI技術采集硬盤、系統(tǒng)壓力等數據,發(fā)送給AI引擎執(zhí)行分析,輸出結果和處理建議,構建智能化運維管理平臺,實現對存儲平臺自動化部署、狀態(tài)監(jiān)測、容量預測、性能優(yōu)化、遠程巡檢、故障診斷、磁盤故障預測、資產管理等智能化運營,解決大規(guī)模IT系統(tǒng)運維難題,提高運維效率,降低運維成本,優(yōu)化用戶體驗,保障業(yè)務連續(xù)性。
通過配置InView,系統(tǒng)運維由被動模式轉換為主動模式,大幅提升系統(tǒng)運維能力和穩(wěn)定性。為用戶帶來看得見的收益,比如多套存儲平臺統(tǒng)一管理、統(tǒng)一入口,實現存儲平臺精細管理;又如基于神經網絡算法和先進訓練模型,在3年多時間內收集超50萬個硬盤樣本,實現故障類型100%覆蓋,再如實現14天內磁盤故障預測預測準確率高于85%。此外,浪潮存儲還可以進行容量、性能智能預測。例如,InView的容量智能預測如下圖。
浪潮存儲圍繞解決數據存儲問題,在“存得下”的基礎上,充分考慮大規(guī)模存儲集群對成本和硬件故障的敏感性,在低投入的情況下實現高容量的數據存儲,并且通過多種功能特性給予存儲系統(tǒng)更高的可靠性、安全性和可用性,進一步實現了“存得穩(wěn)”、“管得全”。
浪潮存儲基于七大極致硬核技術形成了強大的產品競爭力,二季度浪潮分布式存儲出貨量同比增長313%,遠超業(yè)界平均增速。浪潮存儲在殊多行業(yè)斬獲大單,為中國移動大云5.0、全球最大天文望遠鏡FAST、中國氣象大數據研究等超級工程項目提供彈性、靈活、高效的數據存儲服務。浪潮存儲將持續(xù)以“云存智用運籌新數據”賦能智算中心,在分布式存儲領域加速創(chuàng)新,釋放數據要素價值驅動行業(yè)數字化轉型。
作者:浪潮存儲資深架構師葉毓睿、李錚鋆