完善的機房監控體系應該具備三大特點(diǎn):可以完成從設備運轉狀況到機柜微環(huán)境再到機房全體環(huán)境這樣多層次的監控;可以有豐富的閾值設置以監測出危機的存在,并能有豐富的預警方法和預警流程保證相關(guān)人員可以收到警訊,達到預警的目的;具備網(wǎng)絡(luò )化、智能化,可以隨時(shí)隨地經(jīng)過(guò)網(wǎng)絡(luò )查看機房?jì)鹊臓顩r。
然而,傳統機房環(huán)境監控是把重點(diǎn)放在對機房全體環(huán)境、空調及配電柜的監控上,而忽視了對設備內部的監控。另外,傳統機房環(huán)境監控體系也缺少豐富的閾值、預警方法和預警流程設置,不能在真正意義上完成預警功用。
機房監控的三大特點(diǎn)
為了改變傳統機房環(huán)境監控的現狀,需求引入三大新理念加以改進(jìn)。
對設備內部進(jìn)行監控
機房監控的目的在于保護機房?jì)菼T體系的正常、有用運轉,在事故產(chǎn)生之前偵測出潛在危機,并經(jīng)過(guò)各種方法將警情信息發(fā)送給相關(guān)人員及時(shí)進(jìn)行處理。因此,機房監控的核心應該是對IT體系運轉狀態(tài)的監控,而最直接有用的監控應該是直接對IT設備運轉狀態(tài)進(jìn)行監控。
IT設備內部的運轉環(huán)境,例如服務(wù)器內風(fēng)扇轉速與CPU溫度等是最直接、最迅速影響IT設備正常運轉的要素。有時(shí)候即便機房?jì)瓤照{運轉正常,機房全體環(huán)境參數值也在預設范圍內,但某服務(wù)器卻因為某種原因出現服務(wù)器內風(fēng)扇的轉速不正常、CPU過(guò)熱。如果只監控機房全體環(huán)境,此時(shí)機房的管理人員是不會(huì )得到這種危險信息的,整個(gè)體系就會(huì )因為該服務(wù)器潛在危機沒(méi)有得到及時(shí)處理而意外癱瘓。
多層次的機房監控
完善的機房監控體系應該是可以完成對從設備運轉狀況到機柜微環(huán)境再到機房全體環(huán)境這樣多層次的監控,并能重點(diǎn)完成對設備內部的監控。
咱們都知道,機柜內的微環(huán)境是設備正常運轉所需求的物理環(huán)境。機柜微環(huán)境參數最能表現設備所在的實(shí)踐運轉物理環(huán)境的狀況,所以完成對機柜內微環(huán)境的監控也相當重要。機房各個(gè)點(diǎn)的環(huán)境參數值是不同的,因此機房?jì)热w環(huán)境監測的參數不能表現各機柜微環(huán)境參數,更不能表現重要設備內部的環(huán)境。也就是說(shuō),即便機房全體環(huán)境參數正常,IT設備所在處的環(huán)境也不一定正常。所以說(shuō)機房的全體環(huán)境監控的重要性次于對設備的監控和對機柜內微環(huán)境的監控。
空調機的運轉是為了降低機房?jì)鹊臏囟?,使機房?jì)鹊娜w溫濕度保持在一個(gè)合適的范圍內,機房各個(gè)點(diǎn)的溫度參數值是不同的??照{機出風(fēng)口的溫度值不能說(shuō)明機房的全體溫度和機柜微環(huán)境溫度,空調的正常運轉不能說(shuō)明設備就能正常運轉。因此對空調的監控不能代表甚至替代對設備的監控。
漏水監測體系是為了監測機房?jì)仁欠裼新┧?,以避免因漏水影響設備的正常運轉。線(xiàn)式探測器是成線(xiàn)型布置在機房或許漏水的最低處,而實(shí)踐上點(diǎn)式漏水探測器相同可以反映機房的漏水狀況且比線(xiàn)式探測器經(jīng)濟實(shí)惠、安裝方便、維護簡(jiǎn)單。
機房?jì)仍O備由于非常重要,一般都是采用UPS供電,而且UPS是雙供電,只要對UPS進(jìn)行監控就能確保設備正常供電而且能反映市電的狀況。因此,對電源的有用監控是在不添加任何投資的狀況下經(jīng)過(guò)協(xié)議完成對UPS的監控,經(jīng)過(guò)監控其電壓、電流、電池使用狀況、市電狀況來(lái)確保設備的正常運轉。
機房監控的預警功用
報警(alarm)是報告事件的產(chǎn)生,是在毛病或危害產(chǎn)生之后向管理人員發(fā)送警訊,及時(shí)地發(fā)送警訊可以縮短毛病修復時(shí)間(MTTR),最大程度地保障體系運轉。但毛病仍是不可避免地產(chǎn)生了,影響了體系的正常運轉。
預警(alert)則是在毛病或危害產(chǎn)生之前向管理人員報告潛在危機,提示相關(guān)人員進(jìn)行處理,是事前的,可以避免事故的產(chǎn)生。有用的預警可以添加體系平均無(wú)毛病工作時(shí)間(MTBF),并可以根據危機狀況自動(dòng)延伸到報警。
預警與報警的區別就在于它是事前預防性報警,機房監控體系只有具有杰出的預警功用才能偵測出潛在危機并分層次逐步擴展警訊發(fā)送范圍,有用地避免事故的產(chǎn)生,將損失降低到最小。越來(lái)越多的機房管理人員也開(kāi)始意識到預警的重要性,因此機房監控體系必須有預警功用。
那么,機房監控該怎么完成預警功用呢?首先,可以經(jīng)過(guò)靈敏的閾值設置多種偵測方法,確保能及時(shí)地發(fā)現潛在危機;其次,經(jīng)過(guò)設置多種預警的方法,確保所有相關(guān)人員不管在何時(shí)何地都能收到警訊;再次,設置多個(gè)預警流程,確保不同的相關(guān)人員在不同時(shí)間接收到不同程度的警訊。
這樣,一旦有危機出現,立刻將信息發(fā)送給相關(guān)人員直至危機得到有用處理,完成真正意義的預警功用,最大程度地保護體系的運轉。
這種將網(wǎng)絡(luò )運維和機房的配電電源監控、環(huán)境監控、和安全視頻監控結合在一起監控,基于TCP/IP及SNMP,就可以高度的集中管理,不僅可以將單個(gè)機房?jì)雀鞣N動(dòng)力設備與環(huán)境設備的各種狀態(tài)信息、報警信息、控制命令與歷史數據等進(jìn)行完整的集中監控,而且可以將分布在全國各地的多個(gè)機房完成跨區域的集中監控。用戶(hù)只需登錄一套體系就完成對整個(gè)資源的管理,免去了登錄多套體系的麻煩。
為避免外人非法闖入實(shí)施破壞和盜竊行為,可根據機房現場(chǎng)環(huán)境合理配置門(mén)禁和紅外等探測器完成防盜報警。如果生后報警會(huì )將聯(lián)動(dòng)打開(kāi)輔助攝像燈光,攝像機會(huì )自動(dòng)切換到相應位置并開(kāi)始錄像,同時(shí)經(jīng)過(guò)短信,郵件等多種產(chǎn)生向用戶(hù)發(fā)出報警。真正完成無(wú)人值守、集中化、自動(dòng)化的機房維護管理。