新的工具捆綁了數據清理,拖放式編程以及云計算,可以幫助任何熟悉電子表格的人充分利用數據科學的力量。
數據科學可能從來都不是那么容易的,但它正變得越來越容易深入。像“機器學習”、“回歸”和“降維”這樣的術語雖然依然和以往一樣難以理解,但是人們正普遍希望能夠從這些技術中獲得好處,這導致產生了一些很好的工具,它們可以方便的為數據創建生產線,為我們想要尋找的答案提供支持。
這個秘密就類似于制造業的革命。正如標準化的部件幫助啟動了工業革命一樣,各種工具供應商的數據科學家已經開發了一系列非常強大、擁有廣泛適應性的分析例程。他們標準化了接口,使得使用這些可互換的數據科學工具來構建自定義管道變得更加簡單了。
數據科學家過去常常需要絞盡腦汁,因為80%的工作都是通過用Python,Java或他們喜歡的語言來制作自定義例程并準備分析數據的,所以R或SASS中那些復雜的統計工具都可以完成它們的工作。而現在市場上充斥著各種復雜的工具,directadmin授權,它們將數百個經過良好設計的例程捆綁到了一個包中,以便為你完成大量重復且令人不快的數據清理和標準化工作。
這些新工具也為熟悉電子表格的人提供了機會。它們不會讓所有的準備工作都消失,但它們會讓事情變得更加容易。無需對數據格式大驚小怪,因為這些工具足夠聰明,可以做正確的事情。通常你只要打開文件就可以開始學習了。
這些工具還為云計算節省了大量成本。過去,數據科學家往往需要更強大的計算機來處理大數據集。而現在我們可以在云中租用更大、更快的機器,在提高處理速度的同時在每月報表完成時將硬件返回到池中,從而節省成本。
對于只需要訓練算法來預測明年趨勢的核心數據科學家和數據分析師來說,這些工具都是一個福音。所有用戶都可以享受使用復雜工具來正確處理數據的樂趣。不過,標準化也為全新的研究團隊深入研究數據科學提供了可能。現在,你不需要掌握R語言或Python編程就可以開始了。
當然,我們仍然需要深入思考統計學和機器學習。這些工具雖然還不能回答關于什么情況下使用神經網絡或聚類算法能夠獲得更好結果的策略性問題,但是它們可以使獲取所有數據變得簡單,并快速嘗試這兩種方法。當每個人能夠更容易的參與工業革命時,正如標準化消除了長期學徒和熟練工匠的需求一樣,這些數據工具也釋放出了越來越多的企業人員轉向復雜的數據分析以尋求進一步指導的潛力。
Alteryx Alteryx平臺的核心是它的設計工具,一個可視化編程IDE,允許用戶拖放圖標,而不是輸入文本程序。Alteryx平臺的目標用戶既包括數據科學家,也包括了普通的“公民用戶”,很好的迎合了那些不想在清理數據和修改數據以進行分析的細節方面遇到麻煩的人。該平臺試圖通過使用其可視化的編程模型來簡化準備工作以“顛覆數據準備中的80/20法則”。你只要將圖標拖放到數據管道中的正確位置,它就可以應用許多標準化的任務,比如按客戶編號來實現分組或連接兩個文件。
Alteryx還提供了許多用于分析數據和繪圖推斷的預定義預測模型。這些看起來像是用于數據處理的圖標,實際上都是相應的R或Python程序,Alteryx為你省去了處理它們的復雜性和基于文本編碼的麻煩。在設計工具中,數據會自己沿著圖標之間的直線流動,你不需要擔心逗號、方括號或其他的編碼問題。
現在,Alteryx平臺正朝著一個更多的以服務器驅動的模式發展,在這個模型中,你構建的代碼將駐留在一個可以擴展到更大數據集的服務器上。如果你的數據需要增強,Alteryx也已經從Dun & Bradstreet或DigitalGlob等公司獲得了商業數據集授權,可以幫你自動填寫表格。
當你在個人PC上完成模型的設計時,Alteryx也提供了將模型發布到中央服務器的基礎設施,然后將圖形化摘要分發給業務中的每一個人。Promote工具會負責將日常生產數據分發給企業中合適的人員,以便他們能夠使用預測建模的結果。
這款設計工具的標價是每位用戶每年5195美元,但是如果想要使用附加的功能,比如包含人口統計數據或空間數據的數據集,則可能會增加33,800美元。中央服務器的起價為58,500美元,此外,Promote還提供了用于協作和連接的額外功能。