1.異常信息檢測
update消息,主要是監(jiān)聽并緩存uptime消息,同時避免時間窗內(nèi)多次消息沖突,導(dǎo)致信息被覆蓋。
delete消息,通過SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長。
insert消息,在新增加機器, 或者重裝后重新上位的機器發(fā)起,該消息對宕機發(fā)現(xiàn)價值不大,配合uptime使用。
2.網(wǎng)絡(luò)異常檢測
服務(wù)器較多誤報是由于網(wǎng)絡(luò)問題干擾,無法準確判斷出物理機是否宕機,有可能是網(wǎng)絡(luò)問題。
排除上聯(lián)網(wǎng)絡(luò)設(shè)備異常導(dǎo)致的誤報,包括機房斷網(wǎng)演練,小面積網(wǎng)絡(luò)故障,上聯(lián)網(wǎng)絡(luò)故障,如通過探測丟包情況,使用一些邏輯初步判斷網(wǎng)絡(luò)問題。
服務(wù)器本身未丟包的誤報,除了需要過濾出網(wǎng)絡(luò)問題,還要通過丟包數(shù)據(jù)分析,過濾掉SA誤報問題, SA異常會上報心跳異常,被誤理解為宕機。
3.服務(wù)器異常信息檢測
個別機房有時候會出現(xiàn)大面積風(fēng)暴式的無故的信息異常,同時網(wǎng)絡(luò)ping包異常,但上聯(lián)網(wǎng)絡(luò)設(shè)備ping包正常,這種誤報,一般根據(jù)具體case具體進行針對性的分析。如根據(jù)監(jiān)控每個機房的上報頻率,排除干擾。
4.ping檢測
大部分干擾已經(jīng)過濾掉,但仍有一部分誤報隱藏其中。比如ping異常,都合乎宕機判斷的邏輯,會導(dǎo)致誤判成宕機,如導(dǎo)致網(wǎng)卡被打爆,或者重試率高,這種是業(yè)務(wù)原因?qū)е戮W(wǎng)絡(luò)異常,但業(yè)務(wù)認為不是異常,需要排除掉。
再例如服務(wù)器并沒有掛掉,但是IO延時和資源占用率各項指標都不正常等場景。針對以上等情況,增加uptime判斷以及帶外日志分析排查。