本期焦點
位于西南部地區的某線纜生產制造龍頭企業,正基于深信服超融合承載其Oracle RAC數據庫。目前,用戶處于業務擴展期,但IT部門當前的運維人力緊張、預算有限,且缺乏專業的數據庫管理員,難以應對龐大業務體系下的運維難題。在這樣的困境下,用戶開始尋找能夠有效適配的解決方案。
用戶本地數據中心概覽及業務挑戰
該生產制造企業目前已基于深信服超融合平臺構建其核心數據中心設施環境,總計部署超過400核CPU、6TB內存資源,并運行120+臺虛擬機,承載用戶關鍵業務系統,包括OA、財務、生產管理、ERP以及數據庫等核心應用,為用戶的日常運營和生產活動提供了穩定可靠的技術支撐。
然而,隨著用戶的業務不斷擴展,IT部門原有的人力資源及能力都不足以支撐快速增長的需求,尤其在面臨數據庫卡慢、卡死的相關問題時,因缺乏專業DBA,很難進行有效處理,具體問題如下:
-
主動監控手段不足,經常被動響應:核心數據庫由于缺乏有效的監控手段,經常在收到業務部門的問題反饋及投訴之后才開始介入到問題的排查階段,問題處置滯后,對業務部門影響較大。
-
缺乏專業DBA,數據庫問題排查異常困難:針對業務部門頻繁反饋的ERP業務系統卡慢、卡死等問題,IT部門對數據庫性能的分析能力比較欠缺,軟件廠商和系統運維工程師都難以定位問題根因。
在用戶龐大的IT規模和有限的資源條件下,深信服基于一朵云為用戶規劃智能運維服務方案,將傳統線下運維工作進行在線化、智能化轉型,助力用戶以更簡便、高效的路徑實現7*24h在線監測值守和主動式運維服務,提升運維效率,保障業務穩定運行。
關鍵事件:智能運維實踐
下面,我們通過對一次數據庫診斷場景的關鍵事件詳解,呈現智能運維服務的價值。
用戶數據庫遇到性能問題,主動試用智能運維,并接入Oracle數據庫。
2024-11-15 16:33:09:用戶反饋運行在HCI上的Oracle RAC數據庫相關的業務系統卡慢,幾乎無法使用。
2024-11-15 16:45:27:通過試用智能運維服務,將Oracle數據庫接入至云端智能大腦,并聯系深信服DBA專家接入分析Oracle數據庫卡慢問題。
深信服DBA專家通過智能運維中的數據庫智能診斷功能,先獲取到用戶業務卡慢時刻附近的AWR報告。
通過超融合平臺,登錄到用戶的Oracle主機上進行檢查。
經過檢查,發現系統大量使用Swap,說明系統內存不足。(cached占用代表數據庫使用到了操作系統對文件系統的緩存,可能會因緩存文件導致內存過度消耗。)
通過查看從云端智能大腦上導出的AWR報告,通過分析得知SGA的緩存命中率低(約為67%),而TP環境中不應低于90%。
除此之外,還發現PGA的內存消耗達到配置的上限,導致內存分配等待。
故障原因
-
Swap是磁盤上一塊存儲空間。當系統內存使用超過一定值的時候,操作系統就會啟動內核進程kswapd,kswapd將部分內存數據置換到Swap(swap out),從而釋放一部分內存出來,當進程需要讀取被置換到Swap的頁的時候,內核再將數據從Swap讀到內存(swap in)。
-
由于Swap in和Swap out是內核層自動執行的,所以進程不知道自己的內存是否被置換到Swap上了。swap讓進程可以使用超過物理內存大小的內存空間。但是由于Swap是磁盤上的一塊空間,所以其讀寫性能和內存差了1000~10000倍。
-
當內核開始使用Swap,會大大降低系統的響應速度,表現到業務層面為卡慢,甚至操作失敗。
-
當系統使用了Swap時,若存在頻繁換入換出即會導致kswapd進程活躍、CPU使用率上升、大量磁盤IO請求,進而導致業務系統整體卡慢,無響應。
處置建議
在定位到故障原因之后,我們為用戶提供以下處置方案:
-
擴大虛擬機內存,建議擴容到220GB以上(SGA 160G + PGA 20G + OS預留和緩存 32GB)。
-
建議配置使用大頁內存(HugeTabe),避免會話較多時/內存頁過多,導致頁表(TablePage)占用過多內存。
-
建議將數據庫的文件系統IO調整為setall(避免經系統緩存IO,導致OS Cache大量消耗內存)、SGA調整為160G、PGA調整為20G。
2024-11-15 23:45:27~2024-11-16 24:00:經過調整后,用戶數據庫性能大幅提升。
用戶價值
問題精準定位
基于智能運維全棧監控體系,接入并監控Oracle數據庫核心性能指標,充分利用平臺提供的數據庫診斷功能,方便核心數據庫問題現象定位。
疑難問題閉環
依托于智能運維服務提供的DBA專家服務,快速協助用戶排查數據庫層面的性能問題,獲取資深DBA的處置建議,指導數據庫問題端到端處置閉環,縮短MTTR(平均故障修復時間)50%以上,運維效率提升60%以上。
全棧豐富的監控能力,7*24小時持續的守護
智能運維服務通過硬件、平臺軟件、操作系統、數據庫、應用的全棧信息,進行關聯分析,根因溯源,深入分析問題本質、溯源前因后果等多維度揪出根本原因,同時配備專屬服務經理進行7*24h值守與主動響應,幫助用戶提前規避潛在風險。
基于一朵云,深信服圍繞用戶在業務擴展時遇到的運維難題,提供智能運維服務,通過線上線下結合,讓用戶突破傳統運維工作的困境,在簡化工作的同時獲得更好的運維效果,大幅降低運維成本,可滿足用戶在各個業務發展階段的運維需求,保障業務穩定運行,提升業務連續性。
云話技術是深信服打造的一檔云技術內容專欄,將定期為大家推送云計算相關的技術解析、場景實踐等內容,為大家深度解析深信服在云計算領域的創新能力、技術動態、場景應用及前瞻分析。