8月8日消息,昨日騰訊云再發(fā)聲明,盤復(fù)了“前沿數(shù)控”文件系統(tǒng)元數(shù)據(jù)損壞的技術(shù)原因,騰訊稱該故障緣起于因磁盤靜默錯誤導(dǎo)致的單副本數(shù)據(jù)錯誤,再加上數(shù)據(jù)遷移過程中的兩次不規(guī)范的操作,導(dǎo)致云盤的三副本安全機制失效,并最終導(dǎo)致數(shù)據(jù)完整性受損。
騰訊云稱,對其業(yè)務(wù)所受影響表示誠摯歉意。同時希望用戶開啟免費的快照功能,可對重要數(shù)據(jù)進行定期備份。
8月6日,騰訊云表示,提出了“賠償+補償”總金額達到136,469元的解決方案,是該用戶在騰訊云平臺中用云金額的37倍。“前沿數(shù)控”基于自身評估就此次故障對騰訊云提出了11,016,000元的索賠要求。騰訊云稱,這遠遠高于其能夠提供的方案,雙方目前未能達成一致。
以下是聲明全文
【關(guān)于客戶“前沿數(shù)控”數(shù)據(jù)完整性受損的技術(shù)復(fù)盤】
近日,騰訊云客戶北京清博數(shù)控科技有限公司所屬“前沿數(shù)控”平臺一塊操作系統(tǒng)云盤發(fā)生故障,導(dǎo)致該客戶的文件系統(tǒng)元數(shù)據(jù)損壞,我們對客戶業(yè)務(wù)所受影響表示誠摯歉意。同時,我們也對此次故障過程進行了深入的技術(shù)復(fù)盤。
復(fù)盤發(fā)現(xiàn),該故障緣起于因磁盤靜默錯誤導(dǎo)致的單副本數(shù)據(jù)錯誤,再加上數(shù)據(jù)遷移過程中的兩次不規(guī)范的操作,導(dǎo)致云盤的三副本安全機制失效,并最終導(dǎo)致客戶數(shù)據(jù)完整性受損。
痛定思痛,騰訊云希望在盡力幫助客戶解決本次問題的同時,也通過相關(guān)機制的優(yōu)化避免類似情況的再度發(fā)生。
故障過程復(fù)盤
當(dāng)天上午11:57,我們的運維人員收到倉庫Ⅰ空間使用率過高告警,準備發(fā)起搬遷擴容;在14:05時,運維人員從倉庫Ⅰ選擇了一批云盤搬遷至新倉庫Ⅱ,為了加速搬遷,手動關(guān)閉了遷移過程中的數(shù)據(jù)校驗;在20:27搬遷完成之后,運維人員將客戶的云盤訪問切至倉庫Ⅱ,同時為了釋放空間,對倉庫Ⅰ中的源數(shù)據(jù)發(fā)起了回收操作;到20:30監(jiān)控發(fā)現(xiàn)倉庫Ⅱ部分云盤出現(xiàn)IO異常。
故障原因復(fù)盤
本次事故起源自因磁盤靜默錯誤導(dǎo)致的單副本數(shù)據(jù)錯誤,再由于數(shù)據(jù)遷移過程中的不規(guī)范操作,導(dǎo)致異常數(shù)據(jù)擴散至三副本,進而導(dǎo)致客戶數(shù)據(jù)完整性受損。
數(shù)據(jù)搬遷過程中的違規(guī)操作主要如下兩點:
第一是正常數(shù)據(jù)搬遷流程默認開啟數(shù)據(jù)校驗,開啟之后可以有效發(fā)現(xiàn)并規(guī)避源端數(shù)據(jù)異常,保障搬遷數(shù)據(jù)正確性,但是運維人員為了加速完成搬遷任務(wù),違規(guī)關(guān)閉了數(shù)據(jù)校驗;
第二是正常數(shù)據(jù)搬遷完成之后,源倉庫數(shù)據(jù)應(yīng)保留24小時,用于搬遷異常情況下的數(shù)據(jù)恢復(fù),但是運維人員為了盡快降低倉庫使用率,違規(guī)對源倉庫進行了數(shù)據(jù)回收。
因這些錯誤操作的連續(xù)影響,導(dǎo)致該客戶數(shù)據(jù)完整性受損,給客戶的正常業(yè)務(wù)運行造成影響,騰訊云對此再次表示最誠懇的歉意。
改進措施:
經(jīng)過技術(shù)復(fù)盤,騰訊云技術(shù)團隊深入到每個環(huán)節(jié),通過責(zé)任到人與流程閉環(huán)的雙管齊下,相應(yīng)作出如下的加強和改進措施:
首先,我們將全面審視所有的數(shù)據(jù)流程,涉及數(shù)據(jù)安全的流程自動化閉環(huán),進一步提升我們常規(guī)運維自動化和流程化,降低人工干預(yù)。同時把全流程的數(shù)據(jù)安全校驗作為系統(tǒng)的常開功能,不允許被關(guān)閉。
其次,針對物理硬盤靜默數(shù)據(jù)錯誤,在當(dāng)前用戶訪問路徑數(shù)據(jù)校驗自愈的基礎(chǔ)上,我們優(yōu)化現(xiàn)有巡檢機制,通過優(yōu)先巡檢主副本數(shù)據(jù)塊、跳過近期用戶訪問過的正確數(shù)據(jù)塊等方法,加速發(fā)現(xiàn)該類錯誤,進行數(shù)據(jù)修復(fù)。
進一步建議:
騰訊云自2016年3月以來一直在提供免費的快照功能,可以對重要數(shù)據(jù)進行定期備份。同時出于對客戶數(shù)據(jù)隱私性和安全性的考慮,客戶可以自由選擇開啟或者不開啟這一免費功能。騰訊云在這里也呼吁客戶開啟這一功能,進一步提升自身數(shù)據(jù)的安全性。
未來,本著對客戶數(shù)據(jù)最大的敬畏,騰訊云將繼續(xù)探索更科學(xué)的機制,避免類似事件再次發(fā)生。
騰訊云
2018年08月07日