數據專家不能只糊口在R語言或Excel表格里。他們需要東西來得到質量拔尖且可用于預測闡明的數據。其實我以為這正是統計學家和數據專家的區別地址。在我看來,統計學家 利用數據舉辦回歸闡明。而 數據專家 需要切實獲取數據、舉辦回歸闡明、相同功效、展示模式,并逾越地址機構其時的范圍,駐足于制高點教育各人尋求切實可行的打破成長。鑒于他們需要統籌整個數據通道,我但愿這個數據生態系統可以擺列出數據專家門常用的重要東西和利用要領,以及東西之間的交互接洽。
第一部門:數據源
數據是整個數據生態系統的源頭。總的來說,數據源可分為數據庫、應用和第三方數據三類。
1,數據庫
布局化數據庫早于非布局化數據庫呈現。布局化數據庫每年有約250億美元的市場,你可以在數據生態系統圖里看到眾所周知的Oracle,和一些新創公司譬如MemSQL等。布局化數據庫儲存有限的數據列,一般由布局化查詢語言(SQL)運行,用于數據靠得住完善至關重要的規模,好比說財務和運營。
對布局化數據庫有一個重要假設,那就是查詢數據時必需能獲得一致且完善的功效。想一想誰絕對需要這樣一種布局化數據庫?對了,就是你的銀行。它們存儲賬戶信息、小我私家姓名、借錢等等,必需隨時分絕不差地知道你賬戶中的金額。
而別的一種則長短布局化數據庫。情理之中,非布局化數據庫是由數據專家們開辟的,因為數據專家眼中的數據與賬戶并不溝通。數據專家不太在意查詢功效絕對一致,他們更存眷數據的機動性。因此, 非布局化數據在很多方面低落了對數據存儲和查詢的要求 。
許多非布局化數據庫是谷歌得到樂成的直接產品。谷歌實驗把互聯網存儲在數據庫中,其野心和工程之復雜可想而知。MapReduce是一種用于這種數據庫的技能,固然它必然水平上沒有布局化查詢語言 (SQL)那么強大,可是 用戶可以依據需要來調解和擴充它們的數據 。MapReduce的數據利用甚至已經超出了谷歌的初始預期。好比此刻谷歌可以在所有網站間查詢,并按照網站之間的相互鏈接來調解搜索功效。這種可量化的機動查詢使谷歌得到了龐大的競爭優勢,因此雅虎和其他公司以巨額投資來開拓這種技能的開源版本,名叫Hadoop。
另外,非布局化數據庫凡是所需的 儲存空間凡是更小 。在已往數據存儲十分昂貴,因此幾年前,一些主要的互聯網公司不得不每隔幾個月就清空一次數據庫。此刻這種環境已不可思議了。 從強大的推薦引擎,到世界級的翻譯系統,到令人難以置信的存貨打點,都成立于這些數據之上。
非布局化數據庫一般來說沒有布局化數據庫那么準確,但對付很多應用(尤其是數據科學界),這個折衷是值得的。舉例來說,
好比你的非布局化數據庫在100個呆板上運行,,可是個中有一個當機了。這時你僅用99臺呆板(而非100臺)來抉擇向用戶推薦寓目一部特定的影戲,也完全可行。這種范例的數據庫垂青機動性,量化以及速度,哪怕不能隨時擔保完全準確。
尚有一個更有名的例子。一個軟件公司建設了一個基于Hadoop的非布局化數據庫軟件Cloudera。來看看它有多大的生長空間吧:7年前,我接到風投的電話,他們預期Cloudera在全球有10到15家公司的市場,去年Cloudera已得到了快要10億美元的融資。 跟著數據專家代替財政和管帳,成為最主要的數據消費者,數據庫將會越來越走進每一小我私家的糊口 。
2,貿易應用
十年前,沒有人想過能把重要的貿易數據存在云端,如見這卻早已成為了現實。這也許是貿易的IT基本布局的最大轉變之處。 我在數據庫生態系統中列出了四種主要的貿易應用,別離是銷售、營銷、產物和消費者,每一種成果都有多種SaaS應用可供選擇。
SalesForce 應該是首先掀起這股趨勢的并最先得到樂成的。他們把軟件開拓的方針人群是終端用戶(銷售團隊),而非單個的首席技能官。這對他們的用戶十分有用,在此進程中,各人也能看到公司客戶可以或許信任地把重要公司數據放在云端。 銷售數據不再存在于用戶本身安裝的內部數據庫,而是被放在云端,由致力于擔保數據可用且不變的云端公司提供處事。
其他公司也紛紛效仿這種做法。如今根基上每個貿易部分都有一個對應的數據應用。
Marketo存儲營銷數據,
MailChimp存儲電子郵件,
Optimizely存儲A/B測試數據,
Zendesk存儲顧主滿足度,諸如此類。
為什么這是相關的呢?如今每個貿易部分都有強大的數據庫,由數據專家闡明并用于預測闡明。數據量很大,卻零星地漫衍在多個應用之中。好比說你在SugarCRM 中查察某個消費者的信息,可是當你想知道這名顧主的處事記錄時,需要去ZenDesk中查察。而假如你想要知道他是否付出了最近的賬單,則要去查Xero。所有的數據都被存放在差異的所在,網站和數據庫中。 貿易數據被轉移到了云端,可以存放更多的數據了,可是這些數據被零星地存放在全世界的差異處事器的差異應用里。
3,第三方數據