K―平均算法是一種得到廣泛應用的基于劃分的聚類算法。其把M個對象分為N個簇,使得每個簇內具有較高的相似度。
假設A是一個m×n階矩陣,其中的元素全部屬于實數域或復數域。如此則存在一個分解使得A=U∑V*。其中U是m×m階酉矩陣,亞洲服務器租用 歐洲服務器,Σ是半正定m×n階對角矩陣,而V*是n×n階酉矩陣的共軛轉置矩陣。這樣的分解就稱為A的奇異值分解。
在應用該算法進行數據分析時,首先應輸入包含M個對象的數據集A以及簇的數目N。從A中任意選擇N個對象作為初始簇中心并且不斷重復,隨后計算出簇中對象的均值,將每個對象分配到最相似的簇并且不斷更新簇均值,香港服務器租用,最后計算準則函數直到其不再發生變化為止。因為該算法的復雜度大約是0(nkt),所以該算法在處理大數據集時是相對可伸縮的和高效率的。
在MATLAB仿真軟件中計算奇異值分解的函數式為:[b.c.d]=svd(x)
從宏觀上來說,主成分分析是指在研究一項變量較多的課題時,將這些變量通過線性變換而簡化為幾個重要變量的一種多元統計分析方法。而在數據分析領域,主成分分析的主要作用是對大規模的數據集進行分析與簡化。其主要體現在降低數據集的維數,同時盡可能保持數據集中的對所研究的問題最有價值的特征。簡而言之,就是保留低階主成分,忽略高階主成分。其具體方法是通過對協方差矩陣進行特征分解,從而得出數據的特征向量與特征值。主成分分析在數學上可以理解為一個正交化的線性變換,把數據整體變換到一個新的坐標系中,使得這一數據的任何投影的第一大方差在第一主成分上,第二大方差在第二主成分上,依次類推。
從廣義上講,決策樹是一種運用圖解法的概率分析,即在已知各種事件發生概率的基礎上,通過構建決策樹來探究期望值大于等于零的概率,同時判斷可行性的決策分析方法。
奇異值分解
決策樹學習是數據分析領域常用的方法,其目的是構建一個模型來預測樣本的目標值。一棵決策樹的訓練就是依據一個既定指標,將訓練數據集分為幾個子集并且在所產生的子集中不斷重復此方法的過程,直到一個訓練子集的類標都相同時為止。決策樹主要有兩種類型:分類樹和回歸樹。其中分類樹的輸出是樣本的類標,而回歸樹輸出的是一個實數。決策樹的優點體現在即可以處理數值型數據也可以處理類別型數據,并且適合處理大規模數據。
K―平均算法
決策樹學習
主成分分析(PCA算法)