作者: oqinaj 2015-05-28 09:23 [查查吧]:uabf.cn
對于螞蟻金服和阿里巴巴來說,2015年5月27日絕對是值得記住的一天,就在銀監(jiān)會網(wǎng)站于當日下午發(fā)布關于浙江網(wǎng)商銀行的開業(yè)批復的同時,支付寶的系統(tǒng)在下午5點左右出現(xiàn)了故障,這導致全國部分用戶支付寶錢包的功能無法使用,出現(xiàn)了“網(wǎng)絡繁忙、請稍后再試”的提示語。
對此,支付寶錢包官方微博在當天晚間6:05解釋稱,此次事故的是“由于杭州市蕭山區(qū)某地光纖被挖斷”而“造成目前少部分用戶無法使用支付寶”,支付寶表示,運營商正在搶修,而支付寶的工程師正在緊急將用戶請求切換至其他機房。支付寶還稱,用戶的資金安全并不會因此而受到影響,而交易數(shù)據(jù)不同步的情況也會在修復后恢復同步。
從下午5時許到晚間7時左右,系統(tǒng)的故障在持續(xù)了兩個小時左右后被排除。擁有超過4萬億年交易總額的支付寶是中國第一大第三方交易平臺,約占中國整體社會消費金額的六分之一。由于支付寶的在金融領域的系統(tǒng)重要性程度,以及其獨特的基于云計算的IT技術架構,此次故障受到各方關注。
對于導致此次事件的原因,螞蟻金服方面的解釋并未獲得金融和互聯(lián)網(wǎng)界的廣泛認同。業(yè)界聚焦于這樣一個問題,如果按金融機構系統(tǒng)災備標準衡量的話,即使在出現(xiàn)光纜被挖斷的情形,系統(tǒng)的運行也應該正常無誤。
一位資深電信領域?qū)<冶硎?,現(xiàn)在網(wǎng)絡架構多中心制決定了,任何一個節(jié)點出現(xiàn)問題,它的任務將由其他中心來承接。而支付寶肯定是多節(jié)點多中心制。任何一點斷服,都會由其他節(jié)點來進行服務。而且支付寶的路由非常多,其系統(tǒng)也不可能只接一家運營商,即便是只接一家,肯定也是多路由接入。
另一位傳統(tǒng)金融機構的系統(tǒng)安全領域?qū)<曳Q,從理論上講,支付寶應該全部是互聯(lián)網(wǎng)出口,也就是說,所有的入口和出口都是基于互聯(lián)網(wǎng)通信或者電信的節(jié)點來實現(xiàn)數(shù)據(jù)的交換和通信,關鍵節(jié)點出現(xiàn)斷電或者光纖挖斷的情況,理論上應該有備份的接口,就相當于可以放棄出現(xiàn)故障的線路,通過其他的專線可以繼續(xù)保證運行。他因此推斷斷的電纜應該是離主機房比較近的一根線。
簡而言之,在光纜被挖的情況下,整個系統(tǒng)的切換應該可以更加順暢。
在我國金融領域,金融機構涉及客戶資金的重要系統(tǒng)都有災備系統(tǒng)。比如,目前國有大型銀行基本上是采用“兩地三中心”的模式,即同城除了有一個災備中心以外,異地也有一個災備中心,這樣就可以應對戰(zhàn)爭、重大災難等極端情形。因此,當一個機房出問題時,系統(tǒng)會切到同城或者異地的災備中心。
湯森路透的金融網(wǎng)絡網(wǎng)絡號稱世界最大的,它處理著全球?qū)崟r的金融數(shù)據(jù),其系統(tǒng)的建設要求就是在自然災害或戰(zhàn)爭的時候也不能宕機,兩條不同電信公司的光纜和不同電力公司的電纜分別從機房的兩個方向浸入,同一個機房的所有系統(tǒng)實時雙備份,并建立異地(巴黎、日內(nèi)瓦)機房同時實時處理相同的數(shù)據(jù)。
一位國有大型銀行的專業(yè)人士分析,通常來說,如果是同城災備,客戶根本感受不到延遲,如果是異地,系統(tǒng)的切換也會在較短的時間內(nèi)完成。但無論同城還是異地,兩個小時的系統(tǒng)切換的時間對于支付寶這樣一個金融支付系統(tǒng)來說顯然太長。
這一說法得到多位接受采訪的電信技術人士的支持。中國電信的一位技術高層人士分析,服務故障切換機制應該是自動的,根據(jù)一定的事先設置的策略,無需人為干預,人工可以在服務切換后,再重新定義流量疏導方式。
一位螞蟻金服的高管解釋了切換時間較長的原因。他表示,大流量網(wǎng)站實時切換涉及資金時有難度。切換時的數(shù)據(jù)要確保不丟不錯,所以放緩速度是為了安全,對此,他們也在內(nèi)部討論這個選擇的利弊,但認為,首先要保證客戶資金安全,當然未來仍有優(yōu)化空間。在這次恢復中,支付寶已發(fā)現(xiàn)了可以更快恢復的一些環(huán)節(jié),未來出現(xiàn)類似情況有把握更快且更安全的恢復。
而某大型國企網(wǎng)絡運維人員則認為,從技術角度看,支付寶此次事故可能是內(nèi)部應用模塊出了問題,未經(jīng)嚴格驗證的應用被統(tǒng)一升級后,被意外觸發(fā)到未知狀態(tài),導致出現(xiàn)此類問題。
上述運維人員還表示,經(jīng)他觀察,支付寶DBA(數(shù)據(jù)管理人員)緊急恢復了RPO=10days的完整數(shù)據(jù)(RPO,Recovery Point Objective,復原點目標,是指當服務恢復后,恢復得來的數(shù)據(jù)所對應時間點,理想的狀態(tài)是RPO=0,故障出現(xiàn)立即恢復,但需要極大投入),并不停地進行分段增量數(shù)據(jù)恢復,歷時約2小時余,這就是應用模塊的問題。 ?
圖說新聞
深圳多個旅游景點發(fā)
深圳有哪些好玩又不
深圳周邊哪些地方可
深圳哪里可以玩漂流
深圳龍華區(qū)2021年暑期
2021第二屆龍崗喜劇節(jié)