支付寶大面積癱瘓 系統(tǒng)災(zāi)備能力讓人擔(dān)憂

作者: oqinaj  2015-05-28 09:23 [查查吧]:uabf.cn

   對于螞蟻金服和阿里巴巴來說,2015年5月27日絕對是值得記住的一天,就在銀監(jiān)會網(wǎng)站于當(dāng)日下午發(fā)布關(guān)于浙江網(wǎng)商銀行的開業(yè)批復(fù)的同時,支付寶的系統(tǒng)在下午5點左右出現(xiàn)了故障,這導(dǎo)致全國部分用戶支付寶錢包的功能無法使用,出現(xiàn)了“網(wǎng)絡(luò)繁忙、請稍后再試”的提示語。

  對此,支付寶錢包官方微博在當(dāng)天晚間6:05解釋稱,此次事故的是“由于杭州市蕭山區(qū)某地光纖被挖斷”而“造成目前少部分用戶無法使用支付寶”,支付寶表示,運營商正在搶修,而支付寶的工程師正在緊急將用戶請求切換至其他機房。支付寶還稱,用戶的資金安全并不會因此而受到影響,而交易數(shù)據(jù)不同步的情況也會在修復(fù)后恢復(fù)同步。

  從下午5時許到晚間7時左右,系統(tǒng)的故障在持續(xù)了兩個小時左右后被排除。擁有超過4萬億年交易總額的支付寶是中國第一大第三方交易平臺,約占中國整體社會消費金額的六分之一。由于支付寶的在金融領(lǐng)域的系統(tǒng)重要性程度,以及其獨特的基于云計算的IT技術(shù)架構(gòu),此次故障受到各方關(guān)注。

  對于導(dǎo)致此次事件的原因,螞蟻金服方面的解釋并未獲得金融和互聯(lián)網(wǎng)界的廣泛認(rèn)同。業(yè)界聚焦于這樣一個問題,如果按金融機構(gòu)系統(tǒng)災(zāi)備標(biāo)準(zhǔn)衡量的話,即使在出現(xiàn)光纜被挖斷的情形,系統(tǒng)的運行也應(yīng)該正常無誤。

  一位資深電信領(lǐng)域?qū)<冶硎?,現(xiàn)在網(wǎng)絡(luò)架構(gòu)多中心制決定了,任何一個節(jié)點出現(xiàn)問題,它的任務(wù)將由其他中心來承接。而支付寶肯定是多節(jié)點多中心制。任何一點斷服,都會由其他節(jié)點來進行服務(wù)。而且支付寶的路由非常多,其系統(tǒng)也不可能只接一家運營商,即便是只接一家,肯定也是多路由接入。

  另一位傳統(tǒng)金融機構(gòu)的系統(tǒng)安全領(lǐng)域?qū)<曳Q,從理論上講,支付寶應(yīng)該全部是互聯(lián)網(wǎng)出口,也就是說,所有的入口和出口都是基于互聯(lián)網(wǎng)通信或者電信的節(jié)點來實現(xiàn)數(shù)據(jù)的交換和通信,關(guān)鍵節(jié)點出現(xiàn)斷電或者光纖挖斷的情況,理論上應(yīng)該有備份的接口,就相當(dāng)于可以放棄出現(xiàn)故障的線路,通過其他的專線可以繼續(xù)保證運行。他因此推斷斷的電纜應(yīng)該是離主機房比較近的一根線。

  簡而言之,在光纜被挖的情況下,整個系統(tǒng)的切換應(yīng)該可以更加順暢。

  在我國金融領(lǐng)域,金融機構(gòu)涉及客戶資金的重要系統(tǒng)都有災(zāi)備系統(tǒng)。比如,目前國有大型銀行基本上是采用“兩地三中心”的模式,即同城除了有一個災(zāi)備中心以外,異地也有一個災(zāi)備中心,這樣就可以應(yīng)對戰(zhàn)爭、重大災(zāi)難等極端情形。因此,當(dāng)一個機房出問題時,系統(tǒng)會切到同城或者異地的災(zāi)備中心。

  湯森路透的金融網(wǎng)絡(luò)網(wǎng)絡(luò)號稱世界最大的,它處理著全球?qū)崟r的金融數(shù)據(jù),其系統(tǒng)的建設(shè)要求就是在自然災(zāi)害或戰(zhàn)爭的時候也不能宕機,兩條不同電信公司的光纜和不同電力公司的電纜分別從機房的兩個方向浸入,同一個機房的所有系統(tǒng)實時雙備份,并建立異地(巴黎、日內(nèi)瓦)機房同時實時處理相同的數(shù)據(jù)。

  一位國有大型銀行的專業(yè)人士分析,通常來說,如果是同城災(zāi)備,客戶根本感受不到延遲,如果是異地,系統(tǒng)的切換也會在較短的時間內(nèi)完成。但無論同城還是異地,兩個小時的系統(tǒng)切換的時間對于支付寶這樣一個金融支付系統(tǒng)來說顯然太長。

  這一說法得到多位接受采訪的電信技術(shù)人士的支持。中國電信的一位技術(shù)高層人士分析,服務(wù)故障切換機制應(yīng)該是自動的,根據(jù)一定的事先設(shè)置的策略,無需人為干預(yù),人工可以在服務(wù)切換后,再重新定義流量疏導(dǎo)方式。

  一位螞蟻金服的高管解釋了切換時間較長的原因。他表示,大流量網(wǎng)站實時切換涉及資金時有難度。切換時的數(shù)據(jù)要確保不丟不錯,所以放緩速度是為了安全,對此,他們也在內(nèi)部討論這個選擇的利弊,但認(rèn)為,首先要保證客戶資金安全,當(dāng)然未來仍有優(yōu)化空間。在這次恢復(fù)中,支付寶已發(fā)現(xiàn)了可以更快恢復(fù)的一些環(huán)節(jié),未來出現(xiàn)類似情況有把握更快且更安全的恢復(fù)。

  而某大型國企網(wǎng)絡(luò)運維人員則認(rèn)為,從技術(shù)角度看,支付寶此次事故可能是內(nèi)部應(yīng)用模塊出了問題,未經(jīng)嚴(yán)格驗證的應(yīng)用被統(tǒng)一升級后,被意外觸發(fā)到未知狀態(tài),導(dǎo)致出現(xiàn)此類問題。

  上述運維人員還表示,經(jīng)他觀察,支付寶DBA(數(shù)據(jù)管理人員)緊急恢復(fù)了RPO=10days的完整數(shù)據(jù)(RPO,Recovery Point Objective,復(fù)原點目標(biāo),是指當(dāng)服務(wù)恢復(fù)后,恢復(fù)得來的數(shù)據(jù)所對應(yīng)時間點,理想的狀態(tài)是RPO=0,故障出現(xiàn)立即恢復(fù),但需要極大投入),并不停地進行分段增量數(shù)據(jù)恢復(fù),歷時約2小時余,這就是應(yīng)用模塊的問題。 ?

發(fā)表評論

醫(yī)療健康