銀行科技服務(wù)規(guī)范化實踐

時間:2022-07-20 08:58:04

導(dǎo)語:銀行科技服務(wù)規(guī)范化實踐一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

銀行科技服務(wù)規(guī)范化實踐

科技服務(wù)標(biāo)準(zhǔn)化是信息化建設(shè)中重要的基礎(chǔ)環(huán)節(jié),其發(fā)展從早期依靠科技人員的技術(shù)水平,到初步規(guī)范科技運維服務(wù),再到利用現(xiàn)代化運維工具結(jié)合人、技術(shù)實現(xiàn)科技服務(wù)標(biāo)準(zhǔn)化。人民銀行烏魯木齊中心支行借鑒ITIL理論及最佳實踐,嘗試將IT運維監(jiān)控平臺和科技服務(wù)流程相結(jié)合,在規(guī)范化、合規(guī)性要求的基礎(chǔ)上形成了一套覆蓋全行信息化業(yè)務(wù)的定量化、可控的科技管理體系。

一、解決方案和建設(shè)目標(biāo)

一是改變以往“事后補救”為“事前防范”,從被動服務(wù)轉(zhuǎn)變?yōu)橹鲃臃?wù),采用信息化的手段管理,提高對業(yè)務(wù)的支持力度,把科技部門從“救火隊”的角色中解脫出來,成為“保健醫(yī)生”。二是對目前人民銀行使用的現(xiàn)代化支付系統(tǒng)、賬戶管理等重要應(yīng)用系統(tǒng)進行分析,找出這些重要系統(tǒng)的風(fēng)險點,部署相應(yīng)的軟件對各重要應(yīng)用系統(tǒng)的軟硬件、網(wǎng)絡(luò)運行情況進行實時監(jiān)測,各監(jiān)控軟件可以7×24小時工作,為應(yīng)用系統(tǒng)提供忠實、可靠的異常狀態(tài)報警。三是提高科技服務(wù)的規(guī)范性和可靠性,工作目標(biāo)和要求成為可檢驗的指標(biāo),大幅提升事前預(yù)防、事中記錄及事后追溯的能力。我們發(fā)現(xiàn)利用目前的自動化網(wǎng)絡(luò)管理系統(tǒng)(IT監(jiān)控管理平臺)與人民銀行科技服務(wù)管理相適應(yīng)的流程化工具(IT服務(wù)管理平臺)相結(jié)合可以達到預(yù)期目標(biāo),同時借鑒ITIL理論及最佳實踐,設(shè)計出我行IT運維綜合管理平臺的整體架構(gòu),如圖1所示。

二、服務(wù)標(biāo)準(zhǔn)化的基礎(chǔ)——IT監(jiān)控管理平臺

IT監(jiān)控管理平臺(以下簡稱監(jiān)控平臺)由多個子系統(tǒng)組成,包括機房環(huán)境、軟硬件平臺、網(wǎng)站類業(yè)務(wù)、安全集成等,是一個全局統(tǒng)一的監(jiān)控平臺,能夠在一套監(jiān)控平臺上對以上系統(tǒng)進行有效監(jiān)控。系統(tǒng)具有分類業(yè)務(wù)視圖、網(wǎng)絡(luò)拓?fù)鋵崟r監(jiān)測,在線采集系統(tǒng)資源、機房環(huán)境數(shù)據(jù)采集及數(shù)據(jù)、報表分析、告警通知等功能。系統(tǒng)采用B/S與C/S相結(jié)合的架構(gòu),通過簡單網(wǎng)絡(luò)管理協(xié)議(SNMP)、程序(Agent)等多種方式實時采集生產(chǎn)環(huán)境中的各種網(wǎng)絡(luò)設(shè)備、服務(wù)器、應(yīng)用系統(tǒng)、中間件、UPS、空調(diào)等運行數(shù)據(jù),并通過SNMPTrap和Syslog信息集成第三方告警信息。監(jiān)控平臺除了具有系統(tǒng)監(jiān)控、閥值預(yù)警、多渠道報警等功能外,還具有一些自身特點。主要體現(xiàn)在以下幾方面。

1.監(jiān)控平臺的B/S結(jié)構(gòu)監(jiān)控平臺在使用SNMP、Agent等傳統(tǒng)監(jiān)控方式的基礎(chǔ)上,整合了服務(wù)器、系統(tǒng)軟件廠商的監(jiān)控告警消息,機房環(huán)境監(jiān)測的告警,以及存儲、網(wǎng)絡(luò)等資源的監(jiān)控告警消息,形成多種消息通過統(tǒng)一告警平臺進行預(yù)警的目的。由于每個監(jiān)控子系統(tǒng)都是由不同廠商使用不同結(jié)構(gòu)、不同語言開發(fā)的產(chǎn)品,其接口和數(shù)據(jù)調(diào)用都有自己的原則,需要將眾多結(jié)構(gòu)不一的監(jiān)控系統(tǒng)和協(xié)議在統(tǒng)一的需求框架下整合起來。人民銀行烏魯木齊中心支行項目實施小組在經(jīng)過大量技術(shù)論證后,以松耦合集成為原則,保持各系統(tǒng)底層架構(gòu)不變,統(tǒng)一監(jiān)控平臺的界面風(fēng)格,統(tǒng)一的操作方法集成各類事件消息。操作人員可在任何一臺終端上通過瀏覽器對幾百臺設(shè)備的運行狀態(tài)進行監(jiān)控和處理。

2.多層次的系統(tǒng)架構(gòu)監(jiān)控平臺從邏輯架構(gòu)上劃分為采集層、數(shù)據(jù)層、應(yīng)用層和表現(xiàn)層。采集層主要負(fù)責(zé)采集被監(jiān)控系統(tǒng)的各類原始信息,包含性能數(shù)據(jù)、鏈路數(shù)據(jù)、故障數(shù)據(jù)等。數(shù)據(jù)層主要完成對采集來的各類資源數(shù)據(jù)進行預(yù)處理及標(biāo)準(zhǔn)化處理。應(yīng)用層對監(jiān)控數(shù)據(jù)完成進一步加工,提供完善的管理功能,包括:性能管理、告警管理、資源管理、報表管理、拓?fù)涔芾怼踩芾淼饶K。表現(xiàn)層是通過Web界面或Client界面將采集到的監(jiān)控信息以可視化的形式展現(xiàn)出來,具有良好的人機交互性。

3.多種數(shù)據(jù)采集方式系統(tǒng)采用多種數(shù)據(jù)采集方式:一是支持SNMP輪詢的數(shù)據(jù)采集,SNMP協(xié)議支持V1、V2和V3版本。二是支持在被檢查設(shè)備上安裝Agent程序的采集方式。Agent方式能夠支持主流的Unix、Linux、Windows操作平臺,并且支持再擴充功能,即一個系統(tǒng)只需要安裝一個Agent,如被監(jiān)控節(jié)點發(fā)生變更或增加,只需編寫相應(yīng)的腳本導(dǎo)入Agent即可。

4.多種報警和預(yù)警方式告警平臺以事件接收服務(wù)器為核心,負(fù)責(zé)報警事件的接收、過濾、篩選、分析、標(biāo)準(zhǔn)化等工作。我們采用多種方式通知告警事件,包括短信通知、郵件通知、客戶端頁面通知、聲光通知等。系統(tǒng)管理員無論在監(jiān)控室內(nèi)還是外出辦公,均可及時收到并處理報警信息。同時,為避免中間節(jié)點故障產(chǎn)生連鎖告警事件而產(chǎn)生告警風(fēng)暴,監(jiān)控平臺還采用重復(fù)告警合并、告警壓制、事件關(guān)聯(lián)性分析等,有效控制告警風(fēng)暴的產(chǎn)生,提高告警的有效性和準(zhǔn)確性。

5.全面的統(tǒng)計分析報表功能監(jiān)控平臺提供各種常用報表模板,如:當(dāng)前嚴(yán)重告警統(tǒng)計分析;按用戶要求自定義的設(shè)備可用性分析報表;當(dāng)前系統(tǒng)運行狀態(tài)、趨勢等多種報表。還能按用戶指定要求訂閱數(shù)據(jù)報表,發(fā)送到指定郵箱。這些報表的應(yīng)用一方面可以及時掌控各種資源的運行情況,另一方面可以通過趨勢分析,為資源整合、優(yōu)化和設(shè)備管理提供依據(jù)。

三、服務(wù)標(biāo)準(zhǔn)化的初步嘗試——流程化管理

將監(jiān)控平臺所發(fā)現(xiàn)的事件與告警,自動與服務(wù)流程管理系統(tǒng)相結(jié)合,由監(jiān)控平臺的事件告警處理中心將告警分類,將嚴(yán)重告警和主要告警自動生成工單,派發(fā)給相應(yīng)的管理員進行處理,這樣即能夠及時解決故障,又能夠?qū)⒐收系奶幚磉^程全面記錄。我們將全轄業(yè)務(wù)系統(tǒng)運行的各種事件按照ITIL的標(biāo)準(zhǔn)劃分為事件、故障、變更、、科技工作管理等幾類,分別對這幾類事件規(guī)定了相應(yīng)的工作流程,在每個流程中制訂了相應(yīng)的角色、分工,從而使各項工作標(biāo)準(zhǔn)化,對科技人員的工作績效實現(xiàn)量化考核。技術(shù)支持人員的每項工作以及對系統(tǒng)的維護改動都具有可追溯性,全面反映信息資產(chǎn)的生命周期狀態(tài),為今后的審計和績效考核提供服務(wù)。同時,將這些運維經(jīng)驗積累并建立“知識庫”,在全轄范圍內(nèi)實現(xiàn)知識共享。每位業(yè)務(wù)、技術(shù)人員將遇到的問題和解決方法、經(jīng)驗等形成文字資料后可放到該平臺上,全疆業(yè)務(wù)和運維人員在遇到類似問題時就可以得到實時幫助。

四、科技服務(wù)標(biāo)準(zhǔn)化初見成效

首先,該平臺的使用大大降低了科技人員檢查巡檢各信息系統(tǒng)及基礎(chǔ)設(shè)施所耗費的精力和時間,科技人員只需要登錄到監(jiān)控服務(wù)器就可以隨時了解各信息系統(tǒng)及基礎(chǔ)設(shè)施狀況。例如,各地市中支巡檢時間從以往的2小時減少為現(xiàn)在的15~20分鐘,極大提高了工作效率,有效緩解了大量的維護任務(wù)與有限的人力資源之間的矛盾。其次,告警準(zhǔn)確,預(yù)警及時,變被動防護為主要預(yù)防,有效降低系統(tǒng)故障率。平臺除了一般故障告警外,還能夠在統(tǒng)一的界面下對網(wǎng)絡(luò)設(shè)備、各重要應(yīng)用系統(tǒng)的主機、數(shù)據(jù)庫、中間件設(shè)置告警閥值。如CPU和內(nèi)存的使用率,文件系統(tǒng)和數(shù)據(jù)庫日志空間的使用率,重新啟動指定的應(yīng)用程序進程等等。有效控制風(fēng)險發(fā)生,使管理員能很快地定位系統(tǒng)故障,大大降低故障響應(yīng)時間,同時盡早發(fā)現(xiàn)系統(tǒng)異常,在系統(tǒng)尚未發(fā)生故障時即對系統(tǒng)進行維護和干預(yù)。據(jù)統(tǒng)計,監(jiān)控平臺上線后,超過95%的系統(tǒng)異常均通過告警提示,由管理員及時介入干預(yù)而未形成故障。第三,通過提供的報表和圖表,便于運維人員評估運行壓力,提出解決方案,提高設(shè)備利用率,并通過趨勢分析對系統(tǒng)資源優(yōu)化,設(shè)備配備升級提供科學(xué)合理的依據(jù)。第四,促進了整個運維管理的制度化、標(biāo)準(zhǔn)化發(fā)展。從發(fā)現(xiàn)告警、通知機制、到達現(xiàn)場時間、故障診斷、處理時限、應(yīng)急啟動到設(shè)備健康檢查、資源使用情況等,都做到有章可循、責(zé)任分明,并有相關(guān)處理記錄,使運維管理體系更加規(guī)范化,實現(xiàn)科技服務(wù)標(biāo)準(zhǔn)化跨越。