億級數(shù)據(jù)、千條告警秒級處理！浪潮信息InManage智能管理10萬+IT設備

浪潮信息

2024-10-21 14:39 2675

北京2024年10月21日 /美通社/ -- 隨著數(shù)字化和智慧化的加速落地，數(shù)據(jù)中心的設備規(guī)模快速攀升。數(shù)據(jù)中心的Scale out給基礎設施運維管理帶來全新挑戰(zhàn)。以擁有10萬+設備的大規(guī)模數(shù)據(jù)中心為例，面對每日產(chǎn)生高達近30TB的設備運行狀態(tài)、億級監(jiān)控指標、數(shù)千條告警推送等，如何秒級反饋海量并發(fā)需求，保證管理平臺穩(wěn)定運行？如何避免將每秒近千條的大規(guī)模設備告警風暴強塞給客戶，進行根因定位并避免誤報、漏報？這些挑戰(zhàn)正伴隨服務器、存儲和網(wǎng)絡設備規(guī)模的持續(xù)增長，成為超大規(guī)模數(shù)據(jù)中心管理亟待解決的難題。

浪潮信息InManage是一款面向數(shù)據(jù)中心基礎設施的智能管理平臺，通過統(tǒng)一接口、協(xié)議，能夠納管多達400種不同廠商、不同型號的服務器、存儲、網(wǎng)絡等機型，設備規(guī)模最多可達10萬臺，為超大規(guī)模數(shù)據(jù)中心運維提供智能均衡調(diào)度、實時精準告警等管理功能。浪潮信息InManage通過智能均衡作業(yè)調(diào)度平臺，能夠在秒級內(nèi)處理超大規(guī)模數(shù)據(jù)中心億級實時并發(fā)運維管理數(shù)據(jù)，并基于自研的告警管理框架，實現(xiàn)5秒內(nèi)響應上千條告警風暴，顯著降低告警誤報與漏報的風險。InManage不僅創(chuàng)造了金融行業(yè)單一數(shù)據(jù)中心帶外管理的最大紀錄，還實現(xiàn)了數(shù)據(jù)中心基礎設施全生命周期管理，整體運維效率提升兩倍，為超大規(guī)模數(shù)據(jù)中心的穩(wěn)定、高效運行奠定了重要基礎。

10萬+超大規(guī)模設備集群管理，面臨穩(wěn)定性與實時性多重挑戰(zhàn)

隨著數(shù)據(jù)中心的規(guī)?；l(fā)展，服務器數(shù)量爆發(fā)式增長，數(shù)據(jù)中心設備規(guī)模從最初的1000臺增加到10萬臺，規(guī)模擴大了100倍，涵蓋了不同年代和廠商的服務器、存儲、網(wǎng)絡設備等，設備種類多，內(nèi)存、電源、硬盤、風扇等各類故障發(fā)生的不確定性大。對于不同設備的統(tǒng)一管理，一般運維管理平臺會在底層屏蔽設備差異，基于基線策略來實現(xiàn)納管。但隨著數(shù)據(jù)中心規(guī)模的驟增，數(shù)據(jù)中心運維管理的穩(wěn)定性和故障的實時精準告警等挑戰(zhàn)變得日益嚴苛。

首要面對的挑戰(zhàn)是大規(guī)模數(shù)據(jù)中心基礎設施管理平臺的失穩(wěn)問題。大規(guī)?；A設施管理要對不同基礎設施運行狀態(tài)進行實時分析，每天數(shù)據(jù)量達到TB級，而且海量并發(fā)需求要在秒級反饋，極易出現(xiàn)故障上報不及時、頁面卡頓，甚至管理平臺宕機。比如以往某客戶數(shù)據(jù)中心管理平臺進行運維測試時，基礎設施規(guī)模從1000臺增長到5000臺，規(guī)模提升到原來的5倍，會出現(xiàn)管理頁面卡頓，后臺日志顯示大量采集任務超時的問題。即使后續(xù)對管理平臺進行分布式部署，系統(tǒng)負載依然出現(xiàn)較明顯的峰值抖動現(xiàn)象，導致頁面周期性卡頓。其原因主要是作業(yè)被調(diào)度后，缺乏有效的離散管理，高峰與低谷負載不均，對系統(tǒng)穩(wěn)定性帶來極大的挑戰(zhàn)。此外，對于海量資源的數(shù)據(jù)采集任務，會受線程數(shù)、采集周期和耗時等因素影響，容易造成任務積壓，對管理平臺異常情況下的任務隔離與自動降頻能力提出更高要求。

此外，設備大規(guī)模告警的延遲、誤報和漏報是另一大挑戰(zhàn)。在10萬+大規(guī)模設備運維場景中，一般金融等行業(yè)的客戶數(shù)據(jù)中心管理平臺通常以平鋪直敘方式呈現(xiàn)設備告警，缺乏更深層的故障根因判斷、全周期管理等能力。在此場景下，一旦服務器BMC在批量刷新固件時出現(xiàn)故障，可能會在短時間內(nèi)產(chǎn)生大量的Trap推送，同時還夾雜著設備離線等一系列異常告警。數(shù)千條告警的推送，易造成通信堵塞，從而出現(xiàn)告警延遲、告警丟失等。當客戶看到堆積數(shù)千條告警郵件通知時，極易導致客戶誤認為系統(tǒng)正面臨重大故障風險。而且由于沒有全周期管理機制，即便設備故障修復，告警信息仍會持續(xù)存在，這也大大增加了運維管理的復雜性。

智能均衡作業(yè)調(diào)度，10萬+超大規(guī)模設備億級指標穩(wěn)定采集

在超大規(guī)模監(jiān)控場景下，作業(yè)調(diào)度不暢極易造成作業(yè)堆積、負載波峰波谷抖動，嚴重影響系統(tǒng)穩(wěn)定性，進而影響采集進度。為此，浪潮信息InManage自研了ChaosJob作業(yè)調(diào)度中間件，突破了作業(yè)智能均衡調(diào)度技術，實現(xiàn)了采集作業(yè)的高效調(diào)度和穩(wěn)定執(zhí)行。

在作業(yè)調(diào)度層面，InManage自研的任務調(diào)度中間件采用了靈活的作業(yè)分片與調(diào)度策略，能夠基于客戶的業(yè)務場景，對不同類型設備、不同協(xié)議類型的采集任務進行可高度自定義的細粒度分片。通過基于延遲隊列+漏桶算法的"Job Capping"技術，實現(xiàn)任務分片的均衡下發(fā)，有效平抑系統(tǒng)負載波動，達到削峰填谷的目標。
在任務執(zhí)行層面，針對超大規(guī)模數(shù)據(jù)采集這種IO密集型的任務，InManage突破線程優(yōu)先線程池技術，運用"作業(yè)智能聚合"機制，將計算密集型任務與IO密集型任務進行智能調(diào)度與聚合，從而加速任務執(zhí)行，提升系統(tǒng)整體吞吐量，實現(xiàn)任務處理的更高效與平穩(wěn)性。
任務堆積防控層面，InManage的任務調(diào)度中間件具有異常任務自動識別與隔離功能，通過靈活的限流與隔離技術，確保任務"零堆積"，同時保持系統(tǒng)整體吞吐量不受影響。例如，大規(guī)模數(shù)據(jù)中心可能存在多廠商、多型號的異構設備，有些老舊設備接口響應緩慢，采集耗時長，而這些設備往往不運行核心業(yè)務，雖然不受重視，又不能遺棄。在此場景下，InManage能夠智能識別這些設備的異常表現(xiàn)，主動將相關采集任務進行隔離與降頻處理，優(yōu)先保障其他關鍵任務的正常執(zhí)行。這一過程完全自動化，無需客戶干預，成功應對了10萬規(guī)模管理場景下新舊設備混雜帶來的管理挑戰(zhàn)。

圖1浪潮信息 InManage平臺超大規(guī)模作業(yè)調(diào)度架構

告警管道動態(tài)分析，1000+告警動秒級實時精準響應

在面對10萬+超大規(guī)模設備管理時，如何避免將系統(tǒng)產(chǎn)生的告警風暴強塞給客戶，如何進行根因定位并避免誤報、漏報，是數(shù)據(jù)中心統(tǒng)一管理的另一挑戰(zhàn)。為此，InManage提出了CDCAlarm告警管理框架，突破了告警集成管理技術，實現(xiàn)了告警的及時性、準確性和全面性，同時支持告警分析、聚合及根因分析等功能。該框架能夠為客戶呈現(xiàn)按優(yōu)先級排序和分類聚合的告警，直觀易懂、方便用戶進一步處理。

InManage使用AI技術手段對告警進行分類、分批處理，實現(xiàn)告警按來源、種類的歸并聚合策略，在保證告警時序性的同時，提升了告警處理的整體吞吐量。同時使用基于AI的根因定位方法，快速從告警風暴中準確識別出故障根因，并呈現(xiàn)給客戶，有效解決了客戶在面對告警風暴時無從入手的局面。

同時，針對超大規(guī)模監(jiān)控場景下常見的誤報漏報等告警不準確、不及時問題，InManage也做了優(yōu)化。

秒告警秒恢復問題：在10萬+設備的管理中，某些設備可能在發(fā)出告警的同時又快速發(fā)出了恢復信號，甚至可能出現(xiàn)恢復信息先于告警到達。在此場景下，傳統(tǒng)系統(tǒng)容易誤判為告警未恢復，從而導致誤報。InManage的智能告警歸并技術能夠有效識別和規(guī)避此類時序問題，確保告警處理的準確性。

告警噪點問題：在資源利用率實時采集場景下，短暫的峰值可能導致瞬時超閾值的告警，但整體使用率卻保持平穩(wěn)。為避免因這些噪點導致的誤報，InManage的告警管道采用了智能識別和計數(shù)技術，能夠?qū)Χ虝r間內(nèi)的同類告警進行聚合處理，從而徹底消除此類誤報。

告警遺漏問題：在大規(guī)模數(shù)據(jù)中心中，由于網(wǎng)絡負載高，SNMP協(xié)議中的Trap信息（基于不可靠的UDP傳輸）更容易丟失。為解決這一問題，InManage提出了融合多種協(xié)議和多源數(shù)據(jù)的AI智能預警技術，該技術可提供全天候的設備實時監(jiān)控和故障分析，有效降低了告警遺漏的風險，減少客戶業(yè)務隱患。

圖2 浪潮信息 InManage平臺告警分析與處理架構

穩(wěn)定、快速和高效的超大規(guī)模監(jiān)控

在10萬+大規(guī)模設備管理環(huán)境中，InManage系統(tǒng)表現(xiàn)出了穩(wěn)定的性能與高效的運作能力，確保了數(shù)據(jù)采集任務得以平穩(wěn)且迅速地執(zhí)行，顯著增強了系統(tǒng)的整體處理能力，有效規(guī)避了任務積壓問題。面對每日高達近30TB的服務器運行狀態(tài)數(shù)據(jù)洪流，InManage每秒可處理高達1000條的告警風暴，響應延遲維持5秒以內(nèi)，保證了系統(tǒng)監(jiān)控的實時性與準確性。

此外，InManage還具備對歷史數(shù)據(jù)進行高效壓縮與無縫轉(zhuǎn)儲的能力，在保障當前系統(tǒng)流暢運行的同時，確保了歷史數(shù)據(jù)的完整性與可訪問性，有效避免了數(shù)據(jù)丟失的風險。在如此龐大的規(guī)模下，InManage仍能快速查詢一年內(nèi)的歷史告警或事件通知，響應時間縮短至2秒以內(nèi)，為客戶提供了強大的歷史問題追溯能力，確保問題根源得以迅速定位，為系統(tǒng)的長期穩(wěn)定運行提供了堅實保障。

InManage滿足了客戶對于大規(guī)模、多元化、多類型設備的統(tǒng)一帶外管理，確保了數(shù)據(jù)的穩(wěn)定采集及告警集中高效監(jiān)控，同時還具備基礎設施全生命周期資產(chǎn)管理、自動化部署管理等能力。其大規(guī)模統(tǒng)一帶外管理技術、告警智能化分析技術水平處于國內(nèi)領先水平，授權國家發(fā)明專利超過20項。未來，InManage也將更加關注客戶需求的變化，不斷優(yōu)化產(chǎn)品和服務，為客戶提供更加全面、高效、智能的解決方案，助力客戶實現(xiàn)數(shù)字化轉(zhuǎn)型和業(yè)務升級。

消息來源：浪潮信息