在如今的漫衍式數(shù)據(jù)庫中,想針對所有那些PB級的數(shù)據(jù)得到一份靠得住的快照并非易事。
這是IT界眾所周知的事實:改變軟件倉庫的一部門,你很有大概要改變另一個部門。假如舉個明明的例子,只要看看大數(shù)據(jù)。
首先,大數(shù)據(jù)徹底改變了數(shù)據(jù)庫規(guī)模,帶來了一批新的“向外擴(kuò)展型”技能。Hadoop、MongoDB和Cassandra之類的產(chǎn)物就浮現(xiàn)了這一點:數(shù)據(jù)漫衍在多臺商用處事器上,而不是被塞入到一臺大型處事器上。雖然,這么做的利益在于機(jī)動性:若想容納更多PB級的數(shù)據(jù),你只需要添加別的一兩臺便宜的處事器,而不是“向上擴(kuò)展”,付出大筆用度購置更復(fù)雜的處事器。
這一切很好,不外此刻呈現(xiàn)了一個新的棘手問題:備份和規(guī)復(fù)。
知名調(diào)研機(jī)構(gòu)Gartner的副總裁戴夫·拉塞爾(Dave Russell)說:“傳統(tǒng)的備份產(chǎn)物處理懲罰數(shù)量很是多的數(shù)據(jù)時面對挑戰(zhàn)。架構(gòu)具有的向外擴(kuò)展性對傳統(tǒng)的備份應(yīng)用軟件來說也難以處理懲罰。”
拉塞爾暗示,如今的橫向擴(kuò)展型數(shù)據(jù)庫確實包羅可用性和規(guī)復(fù)方面的一些成果,可是它們凡是不如IT用戶已經(jīng)習(xí)慣的那些成果來得強大、靠得住。
假如呈現(xiàn)系統(tǒng)停運,這個問題就會導(dǎo)致大企業(yè)風(fēng)雨飄搖。不外與此同時,一類新的數(shù)據(jù)掩護(hù)產(chǎn)物開始浮出水面。Datos IO公司的RecoverX就是個中之一。
Datos IO的連系首創(chuàng)人兼首席執(zhí)行官塔倫·塔庫爾(Tarun Thakur)說:“假如你有一個傳統(tǒng)的數(shù)據(jù)庫,好比甲骨文或MySQL,它又是向上擴(kuò)展的,那么始終存在耐久性日志(durable log)這個觀念。”
在這類環(huán)境下,假如呈現(xiàn)了問題,該日志的副本就成為了備份。
在如今下一代數(shù)據(jù)庫流行的世界(數(shù)據(jù)漫衍在多臺小型呆板上),這并不是那么簡樸。
塔庫爾表明道:“基礎(chǔ)沒有耐久性日志這個觀念,因為沒有主系統(tǒng),每個節(jié)點都在處理懲罰各自的事務(wù)。差異的節(jié)點大概得到差異的權(quán)利,每一個節(jié)點對付操縱有差異的視圖。”
這一方面是由于為了適應(yīng)凡是所說的大數(shù)據(jù)的“三個V”:數(shù)量、速度和種類而做出的取舍。詳細(xì)來說,為了提供可擴(kuò)展性,同時適應(yīng)以越來越快的速度向我們涌來的海量數(shù)據(jù),如今的漫衍式數(shù)據(jù)庫背離了傳統(tǒng)干系數(shù)據(jù)庫凡是理睬的“ACID”尺度。相反,它們回收了所謂的“BASE”原則。
這是一個重大區(qū)別。最密切相關(guān)的是,對比傳統(tǒng)數(shù)據(jù)庫理睬在整個進(jìn)程中有很強的一致性(也就是ACID中的“C”),漫衍式數(shù)據(jù)庫而是力圖實現(xiàn)所謂的“最終一致性”。更新會早晚表此刻數(shù)據(jù)庫的所有節(jié)點中,不外存在時間滯后。
塔庫爾說:“假如你需要可擴(kuò)展性,就需要放棄一致性――你必需得放棄個中一個。”
這樣一來就很難為時間點規(guī)復(fù)得到全局的一份靠得住快照。451 Research的研究副總裁西蒙·魯賓遜(Simon Robinson)暗示,不只更難在任何一個給定的時間點跟蹤哪些數(shù)據(jù)大概轉(zhuǎn)移到了漫衍式數(shù)據(jù)庫中的哪個處所,假如數(shù)據(jù)呈現(xiàn)了損壞,經(jīng)常被“整合”到更新穎漫衍式數(shù)據(jù)庫中的彈性成果(好比復(fù)制)也無法掩護(hù)你。
他說:“你方才復(fù)制了誰人損壞的數(shù)據(jù)。”
本月早些時候,Datos IO推出了RecoverX,借助成果特性(包羅所謂的可擴(kuò)展版本節(jié)制和語義反復(fù)數(shù)據(jù)刪除),辦理那些問題。該公司暗示,其功效是,與集群一致的備份不只節(jié)減空間,還可以或許以原生名目呈現(xiàn)。
索維克·達(dá)斯(Souvik Das)就在不久前照舊第一成本汽車金融公司(CapitalOne Auto Finance)的首席技能官兼主督工程技能的執(zhí)行副總裁,他對備份困難但是深有體會。
達(dá)斯暗示,利用了多年的傳統(tǒng)數(shù)據(jù)庫后,第一成本早在幾年前舉辦了一次“龐大的轉(zhuǎn)變”,包羅推出新的漫衍式技能,好比Cassandra。此刻,他是面向醫(yī)療保健行業(yè)的初創(chuàng)公司Grand Rounds主督工程技能的高級副總裁。
這就意味著為備份和規(guī)復(fù)尋找一種新的計策。
他表明道:“大大都備份廠商和軟件凡是適應(yīng)它們備份的系統(tǒng)的范例。”
他暗示,假如利用老式備份產(chǎn)物的同時利用新式的漫衍式數(shù)據(jù)庫,大概會帶來貧苦。
達(dá)斯說:“不是該軟件會因不知道如何備份新的數(shù)據(jù)存儲系統(tǒng)而完全失效,就是它會以一種很不抱負(fù)的方法運行。我們知道,那樣的話,我們就要利用差異的備份辦理方案。”
達(dá)斯暗示,第一成本一直在評估Datos IO以及這個規(guī)模的另一家大廠商:Talena。
提供較傳統(tǒng)備份產(chǎn)物的廠商也在針對大數(shù)據(jù),逐法式整本身的技能。
451 Research的羅賓遜說:“老牌的備份廠商凡是需要一些時間來支持新穎的技能。”