在如今的漫衍式數據庫中,想針對所有那些PB級的數據得到一份靠得住的快照并非易事。
這是IT界眾所周知的事實:改變軟件倉庫的一部門,你很有大概要改變另一個部門。假如舉個明明的例子,只要看看大數據。
首先,大數據徹底改變了數據庫規模,帶來了一批新的“向外擴展型”技能。Hadoop、MongoDB和Cassandra之類的產物就浮現了這一點:數據漫衍在多臺商用處事器上,而不是被塞入到一臺大型處事器上。雖然,這么做的利益在于機動性:若想容納更多PB級的數據,你只需要添加別的一兩臺便宜的處事器,而不是“向上擴展”,付出大筆用度購置更復雜的處事器。
這一切很好,不外此刻呈現了一個新的棘手問題:備份和規復。
知名調研機構Gartner的副總裁戴夫·拉塞爾(Dave Russell)說:“傳統的備份產物處理懲罰數量很是多的數據時面對挑戰。架構具有的向外擴展性對傳統的備份應用軟件來說也難以處理懲罰。”
拉塞爾暗示,如今的橫向擴展型數據庫確實包羅可用性和規復方面的一些成果,可是它們凡是不如IT用戶已經習慣的那些成果來得強大、靠得住。
假如呈現系統停運,這個問題就會導致大企業風雨飄搖。不外與此同時,一類新的數據掩護產物開始浮出水面。Datos IO公司的RecoverX就是個中之一。
Datos IO的連系首創人兼首席執行官塔倫·塔庫爾(Tarun Thakur)說:“假如你有一個傳統的數據庫,好比甲骨文或MySQL,它又是向上擴展的,那么始終存在耐久性日志(durable log)這個觀念。”
在這類環境下,假如呈現了問題,該日志的副本就成為了備份。
在如今下一代數據庫流行的世界(數據漫衍在多臺小型呆板上),這并不是那么簡樸。
塔庫爾表明道:“基礎沒有耐久性日志這個觀念,因為沒有主系統,每個節點都在處理懲罰各自的事務。差異的節點大概得到差異的權利,每一個節點對付操縱有差異的視圖。”
這一方面是由于為了適應凡是所說的大數據的“三個V”:數量、速度和種類而做出的取舍。詳細來說,為了提供可擴展性,同時適應以越來越快的速度向我們涌來的海量數據,如今的漫衍式數據庫背離了傳統干系數據庫凡是理睬的“ACID”尺度。相反,它們回收了所謂的“BASE”原則。
這是一個重大區別。最密切相關的是,對比傳統數據庫理睬在整個進程中有很強的一致性(也就是ACID中的“C”),漫衍式數據庫而是力圖實現所謂的“最終一致性”。更新會早晚表此刻數據庫的所有節點中,不外存在時間滯后。
塔庫爾說:“假如你需要可擴展性,就需要放棄一致性――你必需得放棄個中一個。”
這樣一來就很難為時間點規復得到全局的一份靠得住快照。451 Research的研究副總裁西蒙·魯賓遜(Simon Robinson)暗示,不只更難在任何一個給定的時間點跟蹤哪些數據大概轉移到了漫衍式數據庫中的哪個處所,假如數據呈現了損壞,經常被“整合”到更新穎漫衍式數據庫中的彈性成果(好比復制)也無法掩護你。
他說:“你方才復制了誰人損壞的數據。”
本月早些時候,Datos IO推出了RecoverX,借助成果特性(包羅所謂的可擴展版本節制和語義反復數據刪除),辦理那些問題。該公司暗示,其功效是,與集群一致的備份不只節減空間,還可以或許以原生名目呈現。
索維克·達斯(Souvik Das)就在不久前照舊第一成本汽車金融公司(CapitalOne Auto Finance)的首席技能官兼主督工程技能的執行副總裁,他對備份困難但是深有體會。
達斯暗示,利用了多年的傳統數據庫后,第一成本早在幾年前舉辦了一次“龐大的轉變”,包羅推出新的漫衍式技能,好比Cassandra。此刻,他是面向醫療保健行業的初創公司Grand Rounds主督工程技能的高級副總裁。
這就意味著為備份和規復尋找一種新的計策。
他表明道:“大大都備份廠商和軟件凡是適應它們備份的系統的范例。”
他暗示,假如利用老式備份產物的同時利用新式的漫衍式數據庫,大概會帶來貧苦。
達斯說:“不是該軟件會因不知道如何備份新的數據存儲系統而完全失效,就是它會以一種很不抱負的方法運行。我們知道,那樣的話,我們就要利用差異的備份辦理方案。”
達斯暗示,第一成本一直在評估Datos IO以及這個規模的另一家大廠商:Talena。
提供較傳統備份產物的廠商也在針對大數據,逐法式整本身的技能。
451 Research的羅賓遜說:“老牌的備份廠商凡是需要一些時間來支持新穎的技能。”