• <nav id="5jebs"></nav>
    <button id="5jebs"></button>
        • 新聞中心

          新聞中心??>??自動定位問題、自動修復故障?托管云這個功能有點心動
          自動定位問題、自動修復故障?托管云這個功能有點心動
          背景圖 2023-03-10 17:45:52

          信服云黑板報

          用戶業務應用增多,硬件性能跟不上?

          云環境變得復雜,運維工作量不減反增?

          運維人力成本日益激增,技術人才越招越少?


          ——信服云托管云的AIOps業務全生命周期持續性保障系統來啦!


          幫助企業構建實時、持續的保障體系,覆蓋業務全生命周期場景,以多層級時序監控對關鍵指標進行采集與觀測,基于規則預測以及AI預測算法構建故障預測引擎。


          同時,圍繞業務全生命周期,建立基于AI技術的全棧預測,分析以及評估系統,完成問題自動定位和自動修復閉環,實現事先風險預防和主動規避,保障業務全生命周期的持續性。

          業務全生命周期持續性保障系統能力概覽

          業務全生命周期持續性保障系統能力概覽

          圖片

          磁盤故障預測

          通過智能采樣,解決故障磁盤的樣本不均衡問題,并解決時序依賴,自研小樣本場景下基于深度學習的故障預測技術,捕捉相鄰磁盤間的故障傳播的模式,從而實現精準的磁盤故障預測。

          智能采樣

          智能采樣

          圖片

          內存ECC預測與隔離

          圖片

          內存ECC告警與隔離

          大量CE報錯會導致CE風暴,造成系統宕機,故需要對其先進行地址隔離,然后更換內存條,完成處置閉環。要想做到隔離地址的快速精確,最好是先對高風險CE地址的進行預隔離,進而做到內存條物理插槽快速定位,方便運維人員及時更換。另外,還需要采取持久化隔離,避免主機重啟后隔離失效。


          內存ECC預測

          基于機器學習算法,系統對歷史特征進行學習,并進行內存失效預測,提前預警,防患未然。其中主要包括基于CE特征預測CE風暴、UE等內存故障,基于內存性能、電壓等指標評估DRAM健康狀況,使預測結果更準確,降低誤報導致的物料浪費,預測周期1-2小時。

          CE風險地址關聯分析

          CE風險地址關聯分析

          CE隔離效果

          CE隔離效果


          資源預測

          資源預測告警可以展示即將資源耗盡的服務器組、資源池、虛擬機。

           資源預測

          CPU、內存、存儲預測中,可以看到歷史數據和未來趨勢,以及剩余安全容量、預計多少天后將超過安全容量閾值、以及建議擴容容量。

          CPU、內存、存儲預測

          當資源過剩時,也可基于智能算法對閑置虛擬機進行識別,回收對應的資源池或服務器資源。

          對閑置虛擬機進行識別

          識別閑置虛擬機

          未來,在故障預測、分析與自愈上,該系統將完善各個業務場景的故障預測分析工作,根據專家經驗的處置決策樹設置自動處置閉環,并基于強化學習優化處置策略。


          在識別業務特征上,將識別包含業務性能與不同資源的敏感度、業務特定的最佳實踐方案等。使得業務在故障、亞健康等場景下,能夠準確、快速地定位問題,比如幫助后端運維提前感知問題,及時更換硬件,避免因硬件問題引發的業務中斷。


          另外,在硬件亞健康集群的分析上,系統可以提供集群版本升級建議,以及DRS各類調度優化能力,可以更加準確地針對性地對業務進行優化,一定程度上避免資源浪費。


          還可根據托管云硬件故障情況分析硬件故障率,硬件故障變化趨勢等信息,為硬件導入選型提供事實舉證,并結合硬件故障率在數據中心的分布,給倉儲備件的分配提供優化建議。


          在托管云上,借助于業務全生命周期持續性保障系統,用戶可以直觀地了解當前業務運行健康程度與面臨的風險大小,提前預測風險,并及時處置,從而實現業務的穩定連續運行。

          久久在精品线影院,久久视频这里只精品亚洲,99欧美精品含羞草,欧洲精品性爽视频