主機監(jiān)控系統(tǒng)在中型銀行的實踐

時間:2022-08-18 09:31:14

導(dǎo)語:主機監(jiān)控系統(tǒng)在中型銀行的實踐一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

主機監(jiān)控系統(tǒng)在中型銀行的實踐

摘要:本文首選介紹了IBM大型主機和IBMTivoli系列產(chǎn)品,然后以南方某中型銀行為例,通過對Tivoli相關(guān)產(chǎn)品進(jìn)行整合利用,探索并建設(shè)了一套包含告警收集與豐富、事件生成與處理、性能與可用性基線管理、大屏展示等功能的主機監(jiān)控系統(tǒng)。利用主機監(jiān)控系統(tǒng),南方某中型銀行完善了主機資源性能監(jiān)控,實現(xiàn)了IT運維管理與業(yè)務(wù)發(fā)展的融合,提高了數(shù)據(jù)中心運維自動化管理水平。

關(guān)鍵詞:銀行;大型機;Tivoli;監(jiān)控

一、相關(guān)技術(shù)概述

(一)IBM大型主機

1964年,IBM研制出第一代商用大型計算機服務(wù)器,經(jīng)過50多年的不斷發(fā)展,其穩(wěn)定性和安全性在所有計算機系統(tǒng)中首屈一指。大型主機擅長處理海量的并發(fā)任務(wù),穩(wěn)定性超過其他類型的服務(wù)器,I/O能力強,因此特別適合運行銀行的核心系統(tǒng)。從20世紀(jì)80年代開始,中國的國有銀行開始使用IBM大型主機。目前,國有五大行(工商、農(nóng)行、中行、建行、交行)和部分銀行類金融機構(gòu)(江蘇農(nóng)信、四川農(nóng)信)的核心系統(tǒng)運行在大型主機平臺上。Z/OS,CICS,DB2分別是大型主機上專用的操作系統(tǒng)、交易中間件和數(shù)據(jù)庫軟件。

(二)IBMTivoli產(chǎn)品

Tivoli是IBM為大中型企業(yè)專門設(shè)計的一套完善的產(chǎn)品家族,擁有完善的產(chǎn)品線,可用于管理網(wǎng)絡(luò)和計算機的各種產(chǎn)品,為各種IT系統(tǒng)和平臺提供管理功能。與監(jiān)控相關(guān)的Tivoli系列軟件包括以下幾種。1.Omegamon。Omegamon對大型機的Z/OS操作系統(tǒng)、CICS中間件、DB2數(shù)據(jù)庫等子系統(tǒng)進(jìn)行性能監(jiān)測和報表分析,可實時查看交易的運行情況。2.Monitoring。Monitoring(簡稱ITM)通過程序自動監(jiān)視重要系統(tǒng)資源,檢測運行故障和潛在的問題,同時自動觸發(fā)對事件的操作。3.OMNIbus。OMNIbus功能是將各子系統(tǒng)和監(jiān)控管理平臺收集到信息進(jìn)行匯總、判斷、關(guān)聯(lián)、壓縮、處理等操作,再將其發(fā)送給監(jiān)控人員和事件處理人員。4.WebTop。WebTop是Tivoli用于給用戶提供Web視圖的軟件模塊,可以根據(jù)用戶需求進(jìn)行定制,通過一張監(jiān)控視圖就可以實時了解所有相關(guān)資源當(dāng)前的狀態(tài)和變化,并且可以直接查看事件的具體信息和性能等詳細(xì)指標(biāo)。5.Impact。Impact是用來進(jìn)行事件豐富的工具模塊,可將告警事件與外部數(shù)據(jù)庫中的信息進(jìn)行比對,將事件相關(guān)的外部信息填充至告警信息中,從而使維護(hù)人員準(zhǔn)確把握某一事件的真正原因及可能造成的后果。

二、需求分析

由于銀行的核心系統(tǒng)承載了所有重要業(yè)務(wù)的記賬功能,因此實現(xiàn)對大型主機運行狀態(tài)的實時監(jiān)控至關(guān)重要。以南方某中型銀行為例。該銀行核心系統(tǒng)運行在IBM大型主機上,希望通過一個主機監(jiān)控系統(tǒng)對核心系統(tǒng)所有指標(biāo)進(jìn)行全方位實時監(jiān)控,并幫助技術(shù)人員多層次、多角度地了解主機系統(tǒng)的運行狀況、趨勢走向。經(jīng)需求分析,系統(tǒng)主要操作人員涉及監(jiān)控平臺管理員、主機系統(tǒng)及數(shù)據(jù)庫維護(hù)人員、監(jiān)控平臺操作員、ECC操作員,最終確定的系統(tǒng)總體用例如圖1所示。圖1 系統(tǒng)總體用例集中監(jiān)控系統(tǒng)主要包括系統(tǒng)管理、事件管理、性能管理、報表管理、可用性管理、統(tǒng)一門戶等用例,每個用例都有不同的功能。下文將以事件管理為例進(jìn)行詳細(xì)介紹。事件管理主要實現(xiàn)監(jiān)控系統(tǒng)管理員、ECC操作員、監(jiān)控平臺操作員對告警事件的配置、處置、轉(zhuǎn)事件單等功能。具體需要實現(xiàn)的功能有以下幾種:重復(fù)告警過濾功能,通過設(shè)定濾除某些不重要的事件,避免事件風(fēng)暴的產(chǎn)生,減輕技術(shù)人員的處理工作量;告警關(guān)聯(lián)功能,通過設(shè)定特定相關(guān)事件的關(guān)聯(lián)性來幫助技術(shù)人員快速定位并解決問題;告警自動恢復(fù)功能,通過對可自動處理的異常告警制定自動化恢復(fù)策略,以縮短事件處理時間,規(guī)避人為失誤風(fēng)險;告警分類功能,根據(jù)事件的影響程度、類型、來源對事件進(jìn)行分類;告警豐富功能,將事件與其中文解釋建立關(guān)聯(lián),以及將事件與對應(yīng)的參考應(yīng)急處理資料建立關(guān)聯(lián),為技術(shù)人員提供參考,提高應(yīng)急處理的效率;告警監(jiān)控屏蔽功能,提供靈活的配置界面,實現(xiàn)在特殊條件(如正常停機)下的事件監(jiān)控動態(tài)屏蔽;告警嚴(yán)重等級自動升級功能,實現(xiàn)事件響應(yīng)超長條件下的嚴(yán)重等級自動升級及相應(yīng)通知對象提升;事件通知功能,通過短信、電郵告警通知,使事件得到準(zhǔn)確的響應(yīng)和處理。監(jiān)控系統(tǒng)管理員制定監(jiān)控管理配置表,部門主管提出監(jiān)控目標(biāo)和具體指標(biāo)的初步需求,監(jiān)控管理員對需求進(jìn)行整理,ECC操作員提出視圖和工單轉(zhuǎn)發(fā)需求,監(jiān)控平臺操作員提出處理需求,部門主管提供告警接收人的信息,監(jiān)控系統(tǒng)管理員對所有需求進(jìn)行匯總,由主管審批后,即可按照需求對事件進(jìn)行處理。事件管理業(yè)務(wù)流程如圖2所示。

三、設(shè)計與實現(xiàn)

(一)系統(tǒng)拓?fù)湓O(shè)計

主機監(jiān)控系統(tǒng)主要集中部署在該銀行內(nèi)網(wǎng),可以通過銀行內(nèi)部網(wǎng)絡(luò)訪問,也可以通過互聯(lián)網(wǎng)訪問。內(nèi)網(wǎng)環(huán)境主要部署事件告警服務(wù)器、ITM監(jiān)控服務(wù)器、可用性管理服務(wù)器、報表服務(wù)器、門戶服務(wù)器、認(rèn)證服務(wù)器以及數(shù)據(jù)庫服務(wù)器。同時,事件告警服務(wù)器與短信服務(wù)平臺、流程平臺進(jìn)行網(wǎng)絡(luò)連通。所有服務(wù)器均采用負(fù)載均衡的高可用方式進(jìn)行部署。系統(tǒng)拓?fù)淙鐖D3所示.

(二)總體架構(gòu)設(shè)計

本系統(tǒng)主要包括管理資源層、管理工具層、管理分析層、統(tǒng)一展現(xiàn)層,系統(tǒng)架構(gòu)如圖4所示。1.主機管理資源層。即被監(jiān)控對象層,包括主機Omegamon監(jiān)控對象的操作系統(tǒng)Z/OS、數(shù)據(jù)庫DB2、中間件CICS等。2.管理工具層。即對管理資源層進(jìn)行監(jiān)控所需要的所有工具軟件,包括Omegamon主機實時監(jiān)控工具、RMFIII主機性能監(jiān)控工具、NetviewE/AS主機事件監(jiān)控工具、REXX自開發(fā)主機健康檢查工具。3.管理分析層。根據(jù)管理工具層所提供的監(jiān)控數(shù)據(jù),按照數(shù)據(jù)的來源以及屬性分別送入不同的分析模塊中進(jìn)行處理。告警分析和集中處理模塊完成對告警信息的收集、過濾、關(guān)聯(lián)、壓縮和豐富;可用性管理模塊提取主機端運行狀態(tài)數(shù)據(jù),進(jìn)行主機健康狀態(tài)的處理和判斷。4.統(tǒng)一展現(xiàn)層。負(fù)責(zé)統(tǒng)一門戶的展示管理,將下層管理分析層準(zhǔn)備好的展示數(shù)據(jù)進(jìn)行統(tǒng)一展示管理。同時,為管理員提供專門的維護(hù)界面以對整個監(jiān)控系統(tǒng)進(jìn)行客戶化和靈活的配置。

(三)功能模塊實現(xiàn)

在功能模塊的實現(xiàn)上,本文以告警分析與集中處理模塊為例進(jìn)行詳細(xì)說明。告警分析與集中處理模塊通過告警接收器接收來自各類資源管理工具產(chǎn)生的告警事件。告警接收器提供對不同事件源的接收接口,用于接收主機端各類管理工具產(chǎn)生的異常事件告警,之后針對不同類型來源的告警事件采用不同的預(yù)處理規(guī)則進(jìn)行處理,之后進(jìn)入綜合處理。告警綜合處理功能包括豐富告警信息、關(guān)聯(lián)告警和分析告警根原因等,而完成這些功能將可能通過綜合數(shù)據(jù)服務(wù)與交互平臺來訪問其他的各類數(shù)據(jù)源。這些行為包括根據(jù)配置庫的信息進(jìn)行告警豐富、根據(jù)配置庫關(guān)聯(lián)關(guān)系進(jìn)行告警信息的關(guān)聯(lián)、讀取知識庫信息獲取告警的解決方案等,并且通過數(shù)據(jù)交互接口實現(xiàn)告警事件與業(yè)務(wù)服務(wù)管理平臺的關(guān)聯(lián)。告警分析與集中處理模塊的詳細(xì)功能架構(gòu)如圖5所示。

四、功能測試

主機監(jiān)控系統(tǒng)是基于B/S結(jié)構(gòu)實現(xiàn)的,所有服務(wù)器均部署在x86虛擬化環(huán)境中,客戶端用戶使用瀏覽器訪問服務(wù)器。測試服務(wù)器的硬件配置為IntelXeonE5-2650v4CPU4核、內(nèi)存32G、磁盤800G,操作系統(tǒng)為Suse12,應(yīng)用部署的中間件為WebSphere8.0,數(shù)據(jù)庫為DB2V10。在進(jìn)行測試用例設(shè)計時,該銀行共編寫了32個測試用例,覆蓋了所有的功能需求,并于2020年5月至6月順利執(zhí)行通過了全部的測試用例,測試結(jié)果見表1所列。以大屏展示功能測試用例為例,測試結(jié)果展示的效果如圖6所示。

五、結(jié)束語

本文以南方某中型銀行為例,在前期進(jìn)行需求分析的基礎(chǔ)上,對市場上現(xiàn)有的Tivoli產(chǎn)品進(jìn)行整合利用,并設(shè)計出了一套功能豐富的主機監(jiān)控系統(tǒng)。利用主機監(jiān)控系統(tǒng),該銀行不僅可以對IBM大型主機的操作系統(tǒng)、中間件、數(shù)據(jù)庫等基礎(chǔ)軟件的技術(shù)指標(biāo)進(jìn)行實時監(jiān)控和異常告警,而且可以對運行其上的銀行核心系統(tǒng)進(jìn)行每秒交易量、總交易量合計、交易響應(yīng)時間等業(yè)務(wù)指標(biāo)的實時集中展示,大大提高了銀行系統(tǒng)管理員的工作效率。

參考文獻(xiàn):

[1]楊光.大型機平臺個人貸款業(yè)務(wù)系統(tǒng)的設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué),2013.

[2]曾光.基于IBM主機的銀行系統(tǒng)解決方案[D].上海:同濟(jì)大學(xué),2008.

[3]袁春風(fēng),王帥.大學(xué)計算機專業(yè)教育應(yīng)重視“系統(tǒng)觀”培養(yǎng)[J].中國大學(xué)教學(xué),2013(12):41-46.

[4]薛寶明,苑華偉.主機在中型銀行的應(yīng)用實例、挑戰(zhàn)與解決方案[J].金融科技時代,2020(4):77-83.

[5]劉凱強,呂遠(yuǎn)陽.淺談商業(yè)銀行系統(tǒng)高可用技術(shù)架構(gòu)設(shè)計與實現(xiàn)[J].信息技術(shù)與信息化,2017(9):57-59.

[6]黃強.IT集中監(jiān)控系統(tǒng)告警關(guān)聯(lián)分析模型研究[J].科技尚品,2017(5):1-4.

作者:苑華偉 薛寶明 單位:江蘇省農(nóng)村信用社聯(lián)合社