9月28日,信服云托管云運維專家Jason在信服云《云集技術學社》系列直播課上進行了《云運維概況與注意事項》的分享,詳細介紹了在云化大趨勢背景下云運維分工、職責和核心點。以下是他的分享內容摘要。
看點一 云的演進為運維帶來了哪些挑戰?
隨著信息技術的不斷發展,云演進經歷了硬件化、虛擬化、超融合和云四個歷程。數據中心也從傳統數據中心、虛擬化數據中心、軟件定義數據中心到云化數據中心。企業對信息系統的需求定位也在不斷變化,信息系統從成本驅動、成本和效率驅動、管理驅動、管理和效率驅動最后到業務創新驅動。
隨著企業業務規模不斷擴大,信息系統基礎架構也從超融合、多資源池軟件定義數據中心、私有云、同架構混合云再到現在的多云中臺。信息系統和云服務復雜化的趨勢越來越明顯,平臺的安全和運維可靠性成為了云計算的關注重點之一,對云安全和云運維的要求在不斷提高。
云的演進給運維帶來了多重挑戰:
一是管理復雜。節點數量成千上萬,存儲、計算、網絡、PaaS、SaaS各種類型業務復雜。如何管理這么多的資源、平臺和業務對運維而言是一項挑戰。
二是自動化要求高。在如此大的業務規模和服務場景下,自動化程度是運維效率的關鍵。
三是穩定性要求高。云作為一個服務主體,直接承載不同用戶業務,對穩定性要求極高。
四是變更頻繁。云作為客戶服務載體,需要經常根據用戶所需開發云產品或新功能,由此帶來頻繁的升級事項。
五是排查問題難度增加。復雜的技術棧、復雜的業務場景,對于問題排查要求增加。
看點二 云化趨勢下運維工作如何分層?職責邊界是什么?
關于云運維,信服云對整個運維體系做了梳理,將運維分成了IDC、云平臺、云資源、應用層四個層級,每一個層級都會有對應的運維人員進行維護。
應用層包括應用系統和Guest OS的運維;云資源層級運維包括日常響應和專家服務。對于信服云而言,云資源層級是用戶服務目錄的保障。日常響應包含了PaaS、SaaS等多項服務,專家服務包含了安全服務、DBA服務、遷移服務等。
云平臺層級運維包括持續運維、IT設備安裝部署、IT設備運維三部分內容;IDC運維主要是基礎設施的維護,包括對供配電系統、空調與制冷系統、制冷自控系統、動環監控系統等多方面的維護,日常會對機房進行定期巡檢。一般來說,T3及以上的機房都有非常完整的服務保障。
看點三 如何擺脫“救火式運維”的困境?
業界對運維人員一直有個戲稱是“背鍋俠”,這個戲稱也反映了目前運維人員面臨的“救火式運維”困境?!熬然鹗竭\維”困境即當事件已經發生并造成業務影響時,運維人員才能發現和著手處理。如何化被動為主動,突破困境?讓主動運維、持續運維成為常態,就需要詳細拆解云運維核心體系,厘清運維重點,尋求技術突破,跳出運維管理怪圈。
站在管理的角度,運維的核心主要是人員、流程、技術、數據四個方面。人員是運維操作的執行者,流程是運維操作的既定范圍與邊界,技術是運維的武器,數據能夠更好地賦能運維。
在人員層面,任何公司做好運維的第一步是擁有一個負責運維職責的團隊。運維體系組織構成主要有技術支持中心、專家支撐中心、平臺運維中心和職能組。以平臺運維中心為例,人員組成有IDC物理環境維護、基礎設施維護、網絡運維工程師、平臺運維工程師和工具開發組。這些人員保障著云平臺的日常運行。
在流程層面,隨著云時代場景下的系統規模不斷擴大、目錄日趨復雜、運維管理的無序工作狀態日益加劇,這對運維管理水平也提出了更高的挑戰。運維管理流程建設完備程度成為了運維效率的重要決定因素。運維流程管理設計遵循國際ITIL標準,整體流程從設計、轉換、運營等角度出發,對日常運維工作中的目錄管理、可用性管理、容量管理、變更管理等等進行規范和定義。
在技術層面,包括CMDB、監控指標項及模型、告警平臺這幾類運維工具和運維自動化、持續運維等技術。他們推動著運維的發展,幫助運維人員從簡單重復的運維問題中解放出來,讓運維人員能夠更快處理重要問題。
在數據層面,數據是運維很關鍵的部分。它包含的不只是運營的工單流程或者是事件告警,還包含了知識庫、平臺所有的監控數據。很多公司或者說很多運營人員并不是很重視數據,實際上,數據在發現問題、解決問題和優化方案的時候起了非常大的作用。
看點四 云運維的實際過程中有哪些注意事項?
本次直播課上,Jason根據信服云深耕云計算多年的經驗,給出了四點建議:
(1)傳統運維的自動化轉型
企業數字化轉型的前提是企業需要有IT基礎信息化建設以及IT基礎信息的保障。在云化的大趨勢下,中小企業更應該專注自身發展和數字化轉型。在運維層面,可以通過服務化采購,托管式云服務的方式將平臺運維交由云服務商來做。大型企業則應加強投入,組建高質量運維團隊,建立完備流程、分工職責,利用技術和工具實行主動運維,向自動化演進。
(2)落地和執行
在落地的執行階段,應以人員為根本,流程為基線,CMDB、監控、告警為三大基石,堅定不移走自動化戰略。同時給予更多資源讓運維有發展的空間。
(3)數據安全
企業要敬畏生產環境,流程設計一定要規避低級錯誤,而且要保證數據的一致性,數據的防篡改等。
(4)擁抱風險
任何產品都會存在問題,擁抱風險。企業可以跨部門、跨體系建立一條快速解決通道以及自動化高效修復作業程序,保障運維安全。