用戶業務應用增多,硬件性能跟不上?
云環境變得復雜,運維工作量不減反增?
運維人力成本日益激增,技術人才越招越少?
——信服云托管云的AIOps業務全生命周期持續性保障系統來啦!
幫助企業構建實時、持續的保障體系,覆蓋業務全生命周期場景,以多層級時序監控對關鍵指標進行采集與觀測,基于規則預測以及AI預測算法構建故障預測引擎。
同時,圍繞業務全生命周期,建立基于AI技術的全棧預測,分析以及評估系統,完成問題自動定位和自動修復閉環,實現事先風險預防和主動規避,保障業務全生命周期的持續性。
業務全生命周期持續性保障系統能力概覽
磁盤故障預測
通過智能采樣,解決故障磁盤的樣本不均衡問題,并解決時序依賴,自研小樣本場景下基于深度學習的故障預測技術,捕捉相鄰磁盤間的故障傳播的模式,從而實現精準的磁盤故障預測。
智能采樣
內存ECC預測與隔離
內存ECC告警與隔離
大量CE報錯會導致CE風暴,造成系統宕機,故需要對其先進行地址隔離,然后更換內存條,完成處置閉環。要想做到隔離地址的快速精確,最好是先對高風險CE地址的進行預隔離,進而做到內存條物理插槽快速定位,方便運維人員及時更換。另外,還需要采取持久化隔離,避免主機重啟后隔離失效。
內存ECC預測
基于機器學習算法,系統對歷史特征進行學習,并進行內存失效預測,提前預警,防患未然。其中主要包括基于CE特征預測CE風暴、UE等內存故障,基于內存性能、電壓等指標評估DRAM健康狀況,使預測結果更準確,降低誤報導致的物料浪費,預測周期1-2小時。
CE風險地址關聯分析
CE隔離效果
資源預測
資源預測告警可以展示即將資源耗盡的服務器組、資源池、虛擬機。
CPU、內存、存儲預測中,可以看到歷史數據和未來趨勢,以及剩余安全容量、預計多少天后將超過安全容量閾值、以及建議擴容容量。
當資源過剩時,也可基于智能算法對閑置虛擬機進行識別,回收對應的資源池或服務器資源。
識別閑置虛擬機
未來,在故障預測、分析與自愈上,該系統將完善各個業務場景的故障預測分析工作,根據專家經驗的處置決策樹設置自動處置閉環,并基于強化學習優化處置策略。
在識別業務特征上,將識別包含業務性能與不同資源的敏感度、業務特定的最佳實踐方案等。使得業務在故障、亞健康等場景下,能夠準確、快速地定位問題,比如幫助后端運維提前感知問題,及時更換硬件,避免因硬件問題引發的業務中斷。
另外,在硬件亞健康集群的分析上,系統可以提供集群版本升級建議,以及DRS各類調度優化能力,可以更加準確地針對性地對業務進行優化,一定程度上避免資源浪費。
還可根據托管云硬件故障情況分析硬件故障率,硬件故障變化趨勢等信息,為硬件導入選型提供事實舉證,并結合硬件故障率在數據中心的分布,給倉儲備件的分配提供優化建議。
在托管云上,借助于業務全生命周期持續性保障系統,用戶可以直觀地了解當前業務運行健康程度與面臨的風險大小,提前預測風險,并及時處置,從而實現業務的穩定連續運行。