在數字化轉型的浪潮中,各行各業對業務上云的建設需求與日俱增。但是很多企業管理者們對核心業務能否上云仍然舉棋不定,擔心業務云上運行會降低業務穩定性。在上一期信服君給大家介紹了深信服分布式存儲如何突破性能極限,本期信服君就帶領大家深入了解深信服超融合如何做到穩定為王,可靠承載用戶核心業務的。
為了承載用戶核心業務并穩定運行,深信服超融合從硬件到業務層等多方面進行了升級優化:
- 硬件層面,通過最佳實踐部署避免單點故障,良好的兼容性助力承載各種核心業務,對于硬件的亞健康檢測能夠幫助用戶提前對可能存在問題的硬件進行排查。
-
平臺層面,深信服超融合采用分布式架構,任意節點故障都不會影響平臺的穩定性,內置可靠中心能夠對數據中心整體運行狀況進行把控。
-
虛擬機層面,節點資源調度能夠保障集群資源使用盡可能均衡,虛擬機HA(High Availability高可用性集群)確保出現節點故障時,虛擬機自動在合適的主機拉起并繼續運行,同時資源熱添加(DRX)能夠自動為繁忙業務添加資源,避免業務卡慢甚至宕機。
- 業務層面,Oracle和SQL server的優化能夠平穩運行高并發業務系統,內置的容災和雙活方案為整個數據中心的故障提供了有效保障。
在貼近用戶業務需求的背后,是深信服超融合對穩定性能的不斷強化和改進:
鏈路高可靠
深信服存儲私網是“池化”存儲卷內所有主機和硬盤資源之間的關鍵橋梁,存儲卷內數據流通所采用的獨立的以太網絡。為了滿足不同場景下的部署方案,存儲私網支持三種網絡部署方式:無鏈路聚合、單交換機鏈路聚合和雙交換機鏈路聚合。
采用不同的存儲私網部署模式,可以為平臺帶來不同程度的高可靠性,最佳實踐推薦雙交換機鏈路聚合的部署方式,這是容錯能力最高的部署方式,任一線路或者交換機故障都不影響存儲卷的正常運作,而且能夠將主機間的存儲通信帶寬擴大。

存儲私網鏈路聚合按照TCP連接進行均分,兩臺主機間的不同TCP連接可使用不同物理鏈路。區別于傳統的鏈路聚合采用主機IP進行均分的方式,即每2臺主機間只能用1條物理鏈路。存儲私網的鏈路聚合除了能夠提高網絡可靠性,還能夠有效提升存儲通信的網絡帶寬。
可視化可靠中心
為了用戶能夠及時甚至提前預測問題,深信服可靠中心能夠從硬件、平臺、虛擬機、業務層面等各維度對平臺運行情況進行監控。通過可靠中心,用戶可以隨時隨地掌握數據中心整體運行情況,對風險進行提前預判,一旦出現異常,還能通過郵件或者短信及時通知管理員。

▲深信服企業級云管理平臺
極簡靈活的副本機制
副本機制,是指將數據保存多份的一種冗余技術,由分布式存儲的副本復制模塊來保證副本的一致性和副本之間的同步。底層管理的副本對上層服務是透明的,上層不感知副本的存在。
深信服超融合支持兩副本和三副本,副本所存放的位置必須滿足主機互斥原則,即不可能存在兩個副本同時存在同一臺主機上。
以兩副本為例
若寫入一段數據,該數據依次經過條帶化和分片之后,會再經過副本復制模塊,分別寫入到不同的主機中。在無故障的情況下,為保證副本數據的一致性,兩個數據副本必須都寫入完成后,這段數據才算寫入成功。
若讀取一段數據,會選擇其中任意一個副本進行讀取,優先本地副本讀取數據。在沒有網絡掉線、硬盤故障等異常情況下,文件副本數據是始終保持一致的,不會區分所謂主副本和備副本。
如下圖所示,對于每個DATA都有兩份副本位于兩臺主機上。

自愈式數據重建
深信服分布式的高可靠特性除了通過多副本機制能夠保障存儲卷內的組件(磁盤或主機)發生物理故障時,故障組件上的數據還有另外的副本存儲在其他的組件上。還有數據重建能夠實現故障快速自愈、存儲私網聚合保障鏈路高可靠、仲裁機制防數據腦裂等。
以數據采用兩副本策略為例,當存儲卷內的組件(磁盤或主機)發生物理故障時,故障組件上的數據還有另一的副本存儲在其他的組件上,仍然可以保障虛擬機的正常讀寫,但此時存儲卷的冗余度實際上已變低,假如此時另一副本所在的組件也發生故障,就會導致數據丟失。
通過數據重建功能,在組件發生故障后,將以故障組件上數據的另一副本作為修復源,以分片為單位在目的組件上重建出新的副本,恢復副本的完整性,實現系統自愈。
虛擬機故障漂移
對于外部環境故障(比如主機網線斷了,所在存儲不能訪問等)和虛擬機Guest系統故障兩種情況導致的業務中斷問題,深信服的超融合平臺都提供了成熟可靠的HA機制保障業務不中斷或短暫中斷。
HA通常需要兩個或者兩個以上的主機節點組成集群,當啟用了HA功能的虛擬機所在節點發生意外(主機掉電、斷網等)時,集群心跳機制偵測到后,將選擇一臺資源充足的節點自動重啟該虛擬機,從而實現業務的不中斷或短暫中斷。

集群心跳機制,通過輪詢的機制,每隔5s檢測一次虛擬機狀態是否異常,當發現異常并持續時長達到客戶設置的故障檢測敏感度時(比如5分鐘),切換HA虛擬機到其他主機運行。
如下圖所示,當云主機存儲不能正常訪問時,必定會啟動HA機制,其他故障場景HA機制可根據需要自由配置:

通過深信服超融合的HA技術,對業務系統提供了高可用性,極大縮短了由于各種主機物理或者鏈路故障引起的業務中斷時間。
分布式資源調度(DRS)
在虛擬化環境中,如果生產環境的應用整合到硬件資源相對匱乏的物理主機上,虛擬機的資源需求往往會成為瓶頸,全部資源需求很有可能超過主機的可用資源,這樣業務系統的性能無法得到保障。

深信服超融合平臺提供的動態資源調度技術,通過引入一個自動化機制,持續地動態平衡資源,將虛擬機遷移到有更多可用資源的主機上,確保每個虛擬機能及時地調用相應的資源,保障業務系統的性能。即便大量運行對CPU和內存占用較高的虛擬機(比如數據庫虛擬機),只要開啟了動態資源調度功能,就可實現全自動化的資源分配和負載平衡功能,也可以顯著地降低數據中心的成本與運營費用。

通過跨越集群之間的心跳機制,定時監測集群內主機的CPU和內存等計算資源的利用率,并根據用戶自定義的調度策略來判斷是否需要為該主機在集群內尋找有更多可用資源的主機,以將該主機上的虛擬機通過虛擬機遷移技術遷移到另外一臺具有更多合適資源的服務器上,或者將該服務器上其它的虛擬機遷移出去,保證某個關鍵虛擬機的資源需求的同時不影響業務。
動態資源擴展(DRX)
服務器部署在虛擬化環境中,如果前期規劃資源不充足或者隨著業務量的增加導致原有資源規劃不足,但這種情況下又無人值守,無法及時添加資源,就會導致業務會因為資源的不足受到影響。
動態資源添加與動態資源調度都是在業務運行資源不足時保障業務的正常運行。兩者不同處是動態資源調度監控的對象是物理主機剩余資源,進行調度的單位為虛擬機;而動態資源添加關注的是業務虛擬機的資源消耗,進行資源調度的單位為資源(CPU、內存和存儲)。
當啟用動態資源添加功能之后,系統能夠根據添加策略自動調整業務虛擬機資源,以保障業務的正常運行。資源動態添加功能,能夠非常有效地利用主機資源,并且全自動化以減少運維成本。

資源動態添加的實現原理很簡單。系統實時監控業務虛擬機的內存,CPU資源的消耗,當資源消耗達到自定義閥值的時候對業務所在主機剩余資源進行校驗。如果發現主機資源剩余量比較充足的時候,會對業務虛擬機進行不中斷業務地添加資源。如果主機剩余資源不足的時候,不會進行任何資源調整操作,這樣可以避免影響該主機上的其他業務。
容災雙活
在數據保護方面,為了預防人為的或者邏輯故障出現,深信服超融合提供了快照、備份等功能,對于關鍵業務,還能夠提供秒級的CDP(持續數據保護),客戶能夠回滾到3天內任意一秒的狀態點。對于多數據中心場景,可以實現異地容災,甚至是核心業務的業務雙活深信服也能提供完整的解決方案??偟膩碚f,根據用戶業務場景的不同要求,深信服可以提供相應的解決方案。

深信服超融合一直秉承極簡、穩定、高性能的價值主張,為各行各業用戶的核心業務上云交付省心、安全的產品和解決方案。迄今為止,深信服超融合已服務了全球4000+家用戶,遍及政府、金融、醫療、教育、運營商、大企業等各行各業。