網絡上從不缺乏對數據科學術語進行比較和對比的文章。文筆各異的人寫出了各式各樣的文章,以此將他們的觀點傳達給任何愿意傾聽的人。這幾乎是勢不可擋的。
所以我也記錄一下,對于那些疑惑此文是否也是雷同的帖子。對,是這樣的。
為什么再來一帖?我是這樣想的,盡管可能有很多分散觀點在定義和比較這些關聯術語,但事實上是,這些術語中的大部分是流動變化的,并不完全約定俗成,坦率地說,與他人觀點一同暴露是測試和優化自己的觀點的最好方法之一。
所以,雖然大家可能不會完全(甚至是極低限度地)同意我對這些術語的大部分看法,但仍然能從中獲得一些東西。數據科學中的一些核心概念需要被解釋,新加坡云主機 香港云主機,或者至少在我看來是重要的,我會盡力闡述他們如何關聯,以及答疑這些個體概念組合在一起時遇到的困惑。
在獨立地思考概念之前,有個不同觀點的例子,KDnuggets的Gregory Piatetsky-Shapiro的維恩圖,概述了我們將要討論的數據科學術語之間的關系。建議讀者將此維恩圖與目前Drew Conway的著名的數據科學維恩圖,以及我下面的討論和帖子底部的修改過程/關系圖進行比較。我認為,盡管存在差異,但這些概念具有一定的相似性。
現在我們將對上述維恩圖中圈選的6個核心概念進行分析,并提供一些關于如何將它們融入數據科學的洞察。我們很快就會摒棄過去十年最熱門的一些術語。
大數據(Big Data)
有各種各樣的文章在定義大數據,我不打算花太多時間在這個概念上。簡單地來說,大數據通常被定義為“超出常用軟件工具捕獲,管理和處理能力”的數據集。 大數據是一個移動目標; 這個定義既模糊又準確,足以捕捉其主要特征。
至于其他的概念,我們將通過調查,很好的獲得搜索字詞的流行度和N-gram頻率模型的一些初步了解,以便將這個難點與熱點炒作分開。鑒于這兩個概念相對較新,從1980年至2008年,N-gram頻率模型作為一個“舊”的概念如上圖所示。
最近的Google趨勢顯示2個新詞上升,另外2個保持持續上升,以及最后一個逐漸下降但有明顯的下降。請注意,由于已經對數據進行了定量分析,‘大數據’未包含在上述圖形中。繼續閱讀,以便進一步了解觀測結果。
機器學習(Machine learning)
據Tom Mitchell在關于這個主題的創作書中闡述,機器學習“關心的問題是如何構建計算機程序使用經驗自動改進”。機器學習本質上是跨學科的,采用計算機科學,統計學和人工智能等方面的技術。機器學習研究的主要工作是促進經驗自動改進的算法,可以應用于各種不同領域。
我不認為有人會懷疑機器學習是數據科學的核心組成。我在下面給出數據科學的詳細描述,如果你認為在一個非常高的水平上其目標是從數據中獲取洞察力,其實機器學習是允許此過程自動化的。機器學習與古典統計學有很多共同點,因為它使用樣本來推斷和概括。數據統計更多地側重于描述性(盡管可以通過外推來預測),機器學習對描述性分析的關注很少,并且僅將其用作中間步驟以便能夠進行更好預測。機器學習通常被認為是模式識別的同義詞;真的不會從我這里發生太多的分歧,我相信,‘模式識別’這個術語意味著實際上是一個比機器學習更不復雜和更簡單化的過程,這就是為什么我傾向于回避它。
機器學習與數據挖掘有著復雜的關系。
數據挖掘(Data Mining)
Fayyad,Piatetsky-Shapiro&Smyth將數據挖掘定義為“從數據中提取模式的特定算法的應用”。這表明,在數據挖掘中,重點在于算法的應用,而不是算法本身。我們可以定義機器學習和數據挖掘之間的關系如下:數據挖掘是一個過程,在此過程中機器學習算法被用作提取數據集中的潛在有價值模式的工具。
‘數據挖掘’作為機器學習的姊妹術語,也是數據科學的關鍵。在數據科學術語爆發泛濫之前,事實上,數據挖掘’在Google搜索術語中取得了更大的成功。看看Google趨勢比上圖顯示的還要早5年,數據挖掘’曾經更受歡迎。然而,今天,數據挖掘’似乎被劃分為機器學習和數據科學之間的概念。若有人同意上述解釋,數據挖掘是一個過程,那么將數據科學視為數據挖掘的超集,那么后續的術語都是有意義的。
深度學習(Deep Learning)