本期焦點
某智能制造集團以智能制造、工業互聯網為主攻方向,正構建端到端的數字化體系,打造國家級智能制造示范工廠。在集團數字化轉型過程中,傳統架構難以滿足業務連續性要求、無法支持敏捷的數字化業務,同時運維管理復雜。為了實現新型數字化業務的高可靠承載以及云IT基礎設施的統一運維管理,集團決定使用深信服分布式云解決方案構建統一的IT基礎設施底座,承載各個生產基地的生產數字化業務,及總部的經營管理業務,尤其是對MOM系統的承載。
應用場景介紹
制造運營管理(Manufacturing Operation Management)指通過協調管理企業的人員、設備、物料和能源等資源,把原材料或零件轉化為產品的活動。MOM主要覆蓋生產制造過程中12種類型的業務活動,通常也被認為是MOM系統應該具備的功能模塊,其中包括:基礎資源管理相關業務(資源分配與控制、文檔控制、人力資源管理三類)、與生產計劃及組織相關的活動(詳細工序排程、生產派工、工藝過程管理、數據采集、生產跟蹤、質量操作管理、物料管理及跟蹤、績效分析)。
ISA95—2010 定義的 MOM覆蓋業務活動
傳統MES更多的是以生產線為中心,圍繞追溯和防錯等板塊,滿足單工廠、單組織的需求,而MOM作為一個集成化軟件平臺,在集成標準化、開放性和云部署方面都比MES更強,MOM系統主要關注訂單的計劃、管理和執行、生產批次的可追溯性、與ERP系統的連接、質量管理和制造智能等。從MOM概念提出的初衷來看,其目的確實是為了解決MES的局限性,是制造執行系統 (MES) 的演變,MES的工作是MOM的一部分。
MOM系統適用行業包括:汽車制造、電子制造、半導體制造、裝備制造、藥品制造、食品和飲料加工等。
應用架構介紹
典型MOM系統的功能及技術架構如下圖所示:
MOM功能架構
MOM系統的常見部署場景包括:全物理機、虛擬化+數據庫一體機、虛擬化+外置存儲、私有云等,此前用戶在各個工廠的MOM系統主要通過:物理服務器、或VMware虛擬化+數據庫一體機的方案來承載。
需求與痛點
-
高可靠需求:
MOM通過整合企業內外部資源,實現生產過程的全面優化和精細化管理,對可靠性與可用性要求非常高,IT部門需要保障MOM系統全年無宕機,持續穩定的提供服務,但是目前MOM系統的部分組件服務(如MOM報表服務、MOM文件服務等)為單體應用,無高可用機制,因此,當底層IT硬件發生故障或機房發生故障時,MOM無法正常提供服務。用戶希望底層IT基礎設施平臺在硬件或機房層面故障時,MOM系統的業務不受影響,保障RPO為0,RTO為分鐘級。
-
建設維護成本高:
MOM等生產系統存在大量的組件服務,使用物理服務器承載時需要使用很多個主機節點,主機間資源無法復用,無法根據各物理機負載情況調節資源分配,服務器資源存在浪費,希望提高資源利用率。
-
傳統架構運維管理復雜:
各個機房的物理服務器數量多,資源就緒時間長,無法彈性。而生產基地位置分散,傳統架構下無法在總部進行集中管理,運維、安全等方面存在挑戰。
-
生產基地IT運維能力不足:
生產基地物理位置多在三、四線城市,遠離集團總部,配置專業的IT運維團隊成本高,運維人員能力相對較弱。
方案設計
基于用戶生產制造基地數量多、物理位置分散、遠離集團總部的業務分布現狀,以及總部和各個基地已有的專線網絡,以用戶總部數據中心為核心建設總部中心云平臺,在各個生產地的機房部署分支云平臺,在中心云平臺上部署統一云管理平臺,構建“總部+工廠”以超融合架構為底座的統一分布式云,替換傳統IT架構,實現IT基礎設施的統一管理、統一運維。同時,為滿足生產基地MOM等應用系統的高可靠承載,規劃建設園區級的雙活云平臺,保障生產基地業務的穩定運行。
總部中心云平臺和各個生產基地分支云平臺主要承載的業務系統如下表:
在分布式云方案中,基于不同的業務承載需求,主要云平臺的集群節點數量規劃如下:
可靠性設計效果驗證
效果驗證的驗證目的
測試的主要目標是驗證深信服超融合雙活方案可以對MOM系統提供高可靠的承載,在集群、網絡、數據中心發生故障時仍能夠保障MOM系統正常提供服務。
本次測試在用戶現網中采用“超融合雙活架構+物理機”的方案來承載MOM系統,4臺超融合服務器(2+2)組成雙活架構承載MOM應用服務及異步從數據庫,2臺聯想服務器承載MOM主數據庫及同步從數據庫。延伸集群上業務部署位置規劃原則如下:
-
數據中心機房的主故障域優先承載對外提供訪問的業務;
-
生產機房的備故障域優先承載生產終端需要訪問的業務;
-
不同網段業務分別通過不同機房進行訪問。
驗證測試環境說明
MOM系統組件的可靠性要求、RTO、RPO,以及部署資源需求如下表所示:
本次測試主要以MOM報表服務器作為測試業務驗證,測試在網絡、集群等發生故障后的高可靠保障機制。
整體的測試組網架構如下:
-
數據中心機房服務器交換機和生產機房服務器網關交換機通過配置VRRP虛擬網關(單網關主備模式)給業務,同時配置NQA/BFD聯動VRRP切換。
-
網絡拓撲中,通過兩個物理AD建立主-主雙活(主心跳走二層,備心跳走三層),物理AD做應用負載和業務發布。
-
HCI仲裁連接到生產機房交換機(說明:生產機房交換機不能故障,否則影響生產和超融合)。
-
HCI業務網絡、管理網絡、存儲網絡都通過數據中心機房和生產機房之間的光纖專線網絡打通。
-
生產中心應用和外部應用訪問通過域名訪問MOM系統,通過AD對外發布業務。
驗證測試過程與結果
場景1:數據中心機房防火墻故障
1. MOM報表服務器運行在主故障域,需要對外部應用和生產應用提供訪問。
2. 服務器交換機配置BFD探測到出口核心(交換機上配置探測時間間隔50ms,探測超時時間150ms)。
3. 當數據中心機房的防火墻故障時,外部用戶無法通過數據中心機房網絡訪問主故障域上的應用,此時服務器交換機上配置的BFD探測超時,服務器交換機LAN口主動DOWN掉,VRRP執行主備切換(VRRP生效約200ms),備用網關迅速切換為Master,主故障域上的業務通過生產機房對外提供業務,外部用戶通過生產機房的網絡訪問主故障域上的業務。
4. 因此,當數據中心機房防火墻故障時,主故障域上承載單體應用MOM報表服務器的虛擬機不需要HA即可對外提供高可靠的服務。
5. 現場測試網絡整體切換時延小于1s,滿足RTO 5分鐘的要求。
場景2:服務器交換機故障
1. MOM報表服務器運行在主故障域,需要對外部應用和生產應用提供訪問。
2. 當服務器交換機故障時,外部用戶無法通過數據中心機房網絡訪問主故障域上的應用,這種情況相當于VRRP網關的Master故障,此時VRRP執行主備切換(VRRP生效約200ms), 備用網關變為Master,主故障域上的業務通過生產機房對外提供業務,外部用戶通過生產機房的網絡訪問主故障域上的業務。
3. 因此,當數據中心服務器交換機故障時,主故障域上承載單體應用MOM報表服務器的虛擬機不需要HA即可對外提供高可靠的服務。
4. 現場測試整體切換時延小于1s,滿足RTO 5分鐘的要求。
場景3:業務交換機故障
1. 數據中心的服務器交換機配置BFD探測AD,當探測不到AD時,把上聯口down掉,此時網關VIP切換到生產機房的服務器網關,出口路由的OSPF會重新尋址到生產服務器網關這臺交換機。
2. 業務交換機故障時,旁掛的AD探測不到主故障域上的MOM報表服務器業務,無法對外提供業務訪問,外部用戶訪問業務中斷。此時相當于超融合集群的物理出口連接的業務網口故障,因此承載MOM報表服務器的虛擬機需要HA,超融合平臺的網絡離線響應檢測時間設置10s。
3. 主故障域上承載MOM報表服務器的虛擬機通過HA機制在備故障域拉起 ,由于AD配置的是雙活,因此當承載MOM報表服務器的虛擬機HA到生產機房的備故障域后,生產機房的AD探測到備故障域上MOM報表服務器的業務正常時,生產機房的AD會對外發布業務并提供訪問服務。
4. 現場測試虛擬機HA后重啟恢復時間小于2分鐘,滿足RT0 5分鐘的要求,同時延伸集群通過副本機制實現業務數據跨站點同步,實現RPO=0。
場景4:主故障域整體故障
1. 當數據中心主故障域整體故障時,主故障域和備故障域之間的管理網/業務網都會異常,與“業務交換機故障”的場景一樣,主故障域上承載單體應用MOM報表服務器的虛擬機通過HA機制在備故障域拉起。
2. 承載MOM報表服務器的虛擬機HA成功后,數據中心機房的AD探測到MOM報表服務器的業務恢復后,正常提供服務,網絡設備無需切換。
3. 現場測試虛擬機HA后重啟恢復時間小于2分鐘,滿足RT0 5分鐘的要求,同時延伸集群通過副本機制實現業務數據跨站點同步,實現RPO=0。
針對MOM系統中的主/備應用,分布式應用,分別將主備應用、分布式應用部署在主故障域和備故障域,參考單體應用的故障場景進行故障模擬測試,驗證應用的高可靠承載能力,均能滿足業務對底層虛擬機所要求的RPO、RTO指標。
云平臺運行效果與最佳實踐
異地多資源池統一管理運行情況
統一云管理平臺管理10個物理位置分散在全國各地的超融合架構的集群資源池,納管一個VMware集群。
MOM系統資源池運行情況
針對電子制造MOM系統數據交互頻繁、并發數據量大、時延要求高的特點,采用SSD構建全閃資源池進行承載,從實際運行情況來看,在業務高峰期間平均IO讀數據量:0.8GB/s,平均IO寫數據量0.3GB/s的高吞下,平均IO讀時延3ms,平均IO寫時延2ms,實現MOM系統的高性能、高可靠承載。
MOM系統應用最佳實踐配置
制造基地園區雙活云平臺不同應用的可靠性提升建議方案總結如下:
方案價值
生產業務穩定承載,消除單點故障
生產基地云平臺的雙活架構實現MOM等生產業務系統的穩定可靠承載,保障生產業務連續性。
敏捷彈性的數字化轉型IT底座
分布式云構建資源整合、數據共享、業務協同的IT服務新模式,資源就緒時間從幾小時縮短到幾分鐘。
大幅提升IT運維效率
云管理平臺進行統一管理,利用分布式云的智能運維能力,實現總部對各個生產基地云平臺的集中監控、運維管理,運維效率提升40%。
減少IT設備數量,降低成本
通過云平臺替換物理服務器,以及基于云管理平臺的精細化運營管理能力,極大提升資源利用率,減少服務器采購和能源消耗,減少20%。
云話技術是深信服打造的一檔云技術內容專欄,將定期為大家推送云計算相關的技術解析、場景實踐等內容,為大家深度解析深信服在云計算領域的創新能力、技術動態、場景應用及前瞻分析。