主成分分析和因子分析有什麼區别和聯系?”這個問題其實很多朋友在後台提問過,今天将這個問題的答案寫成推送分享給大家。
方法背景随着硬件技術的發展,每年被記錄和存儲下來的數據是非常龐大的,如何從龐大的數據堆中篩選出目标數據并分析得到有用的結論是現今重要的領域---數據挖掘。為了能夠充分有效的利用數據,化繁為簡是一項必做的工作,希望将原來繁多的描述變量濃縮成少數幾個新指标,同時盡可能多的保存舊變量的信息,這些分析過程被稱為數據降維。
主成分分析和因子分析是數據降維分析的主要手段。另一種化繁為簡的手段是聚類。
降維分析簡單理解就是将描述事物的衆多指标(變量)通過一定的手段濃縮成少數幾個有代表性且互不相關的新變量。聚類分析的分析對象是個案,每個個案都會有各種描述其情況的指标,根據各種指标的情況,将個案進行歸類。例如,酒店通用的分級标準是一星到五星,每個等級都有對應的很多硬性指标,根據所有指标的綜合情況評定酒店的級别。
今天我們介紹的就是降維分析的其中兩種主要方法:主成分分析和因子分析。
主成分分析主成分分析可以簡單的總結成一句話:數據的壓縮和解釋。常被用來尋找判斷某種事物或現象的綜合指标,并且給綜合指标所包含的信息以适當的解釋。在實際的應用過程中,主成分分析常被用作達到目的的中間手段,而非完全的一種分析方法。這也是為什麼SPSS軟件沒有為主成分分析專門設置一個菜單選項,而是将其歸并入因子分析。我們可以先了解主成分分析的分析模型。
上面這幅圖是經常被用來形象解釋主成分分析原理。圖中原來有兩個坐标軸X1和X2,從散點分布可以很明顯的知道散點在這兩個坐标軸内存在線性相關。如果将這些散點在坐标軸X1和X2上的取值自變量x1和x2納入到各種回歸模型中,将會由于它們的多元共線問題緻使拟合結論出現偏差。那麼如何處理才能避免呢?這裡給大家強調,統計學上數據信息往往指的是數據變異(數據波動)。在上圖中,散點的分布構成了一個橢圓形點陣,在橢圓的長軸方向,數據波動明顯大于短軸方向。此時如果沿着橢圓的長軸和短軸方向設定新的坐标軸(F1和F2)組成坐标系,那麼新坐标系可以完全解釋數據散點的信息,散點在新坐标軸上的取值就形成兩個新的變量(f1和f2),這兩個新變量之間是相互獨立(不相關)。從散點圖上還可以知道,長軸和短軸能夠解釋的數據信息是不同的,長軸變量攜帶了大部分數據的變異信息,而短軸上的變量隻攜帶一小部分變異信息。此時隻需要使用長軸方向上的新變量(f1)就可以代表原來兩個變量(x1和x2)的大部分信息,達到降維的作用。主成分分析的這種坐标軸變化是通過将原來的坐标軸進行線性組合完成的。這個線性組合的過程涉及到線性代數部分的内容,這裡不過多解釋。假設描述對象(例如汽車)由k個自變量指标(油耗、車重、軸長、内飾等等)進行描述,因為這些指标很多都是相關的(重量與油耗),因此可以進行主成分分析,濃縮變量。經過坐标軸線性組合以後,可以形成下面的線性組合式子:
通過線性組合以後,主成分分析可以形成k個新變量。這裡的線性組合大家可以理解成原來坐标軸的空間旋轉,因此原來有多少變量(k個),經過主成分分析以後,形成數量一緻的新變量(k個)。新變量之間的方差關系見下式。通常情況下,我們隻許取前面幾個即可。
在主成分分析後,SPSS等軟件會輸出下面這個結果。包括特征根值,方差貢獻率和累計方差貢獻率。從表格結果可知,原來的變量數量是8個,經過矩陣的線性組合(正交變換)以後,形成了8個成分,前面三個成分總共貢獻了數據變異的89.5%,因此提取了前面三個成分作為主成分。
主成分分析的一個重要的結論是主成分矩陣,如下表所示。主成分矩陣可以說明各主成分在原來變量上的載荷,所以也被稱為載荷矩陣。
通過載荷矩陣可以寫出主成分的組成結構表達式。我們以第一主成分為例,寫出其表達式。從式子可以知道,第一主成分包含原來變量X1,X3和X8在信息最多,X2和X7其次,X4,X5和X6更少一些。這就是主成分分析的緻命缺陷,提取出來的主成分不能明确解釋成某幾個原始變量的概率,為進一步分析制造了困難。(這個問題将由因子分析來解決)
主成分分析的另一個結論是主成分得分矩陣。其實就是主成分載荷矩陣除以主成分特征根後得到的矩陣。為什麼要除以特征根呢?這是因為主成分載荷矩陣是帶有成分重要性屬性(包含特征根)的,如果要用提取得到的主成分進行綜合排名比較或回歸分析,需要先消除主成分的權重不平等(重要性不同),因此需要除以對應主成分的特征根,得到主成分得分矩陣。上表的主成分得分矩陣為:
根據主成分得分矩陣的得分系數,就可以計算每個個案在新變量(主成分)上的數值。進而可以将新變量值用于綜合評分和回歸。
以上就是主成分分析的所有過程。可以通過矩陣變換知道原始數據能夠濃縮成幾個主成分,以及每個主成分與原來變量之間線性組合關系式。但是細心的朋友會發現,每個原始變量在主成分中都占有一定的分量,這些分量(載荷)之間的大小分布沒有清晰的分界線,這就造成無法明确表述哪個主成分代表哪些原始變量,也就是說提取出來的主成分無法清晰的解釋其代表的含義。
因子分析鑒于主成分分析現實含義的解釋缺陷,統計學斯皮爾曼又對主成分分析進行擴展。因子分析在提取公因子時,不僅注意變量之間是否相關,而且考慮相關關系的強弱,使得提取出來的公因子不僅起到降維的作用,而且能夠被很好的解釋。因子分析與主成分分析是包含與擴展的關系。首先解釋包含關系。如下圖所示,在SPSS軟件“因子分析”模塊的提取菜單中,提取公因子的方法很多,其中一種就是主成分。由此可見,主成分隻是因子分析的一種方法。
其次是擴展關系。因子分析解決主成分分析解釋障礙的方法是通過因子軸旋轉。因子軸旋轉可以使原始變量在公因子(主成分)上的載荷重新分布,從而使原始變量在公因子上的載荷兩級分化,這樣公因子(主成分)就能夠用哪些載荷大的原始變量來解釋。以上過程就解決了主成分分析的現實含義解釋障礙。
上面兩個表是旋轉後的成分矩陣和成分得分系數矩陣,這兩個表的數值與主成分分析的結果已經完全不同。從左邊的表可以明顯知道,第一公因子主要由X1,X8,X3和X5解釋,第二公因子有X4和X2解釋,第二公因子有X6和X7解釋。右邊表格的得分系數也不在是通過成分載荷/特征根得到,而是通過回歸得出(後面的文章會介紹)。
總結一下從以上内容可以知道,主成分分析和因子分析的關系是包含與擴展。當因子分析提取公因子的方法是主成分(矩陣線性組合)時,因子分析結論的前半部分内容就是主成分分析的内容,而因子旋轉是因子分析的專屬(擴展),主成分分析是因子分析(提取公因子方法為主成分)的中間步驟。這就是為什麼很多軟件沒有專門為主成分分析獨立設計模塊的原因。從應用範圍和功能上講,因子分析法完全能夠替代主成分分析,并且解決了主成分分析不利于含義解釋的問題,功能更為強大。
小結本文原創作者胡保強,請支持原創!
感謝大家耐心看完,自己的文章都寫的很細,代碼都在原文中,希望大家都可以自己做一做,請關注後私信回複“數據鍊接”獲取所有數據和本人收集的學習資料。如果對您有用請先收藏,再點贊轉發。
也歡迎大家的意見和建議,大家想了解什麼統計方法都可以在文章下留言,說不定我看見了就會給你寫教程哦。
如果你是一個大學本科生或研究生,如果你正在因為你的統計作業、數據分析、論文、報告、考試等發愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何問題,都可以聯系我。因為我可以給您提供好的,詳細和耐心的數據分析服務。
如果你對Z檢驗,t檢驗,方差分析,多元方差分析,回歸,卡方檢驗,相關,多水平模型,結構方程模型,中介調節,量表信效度等等統計技巧有任何問題,請私信我,獲取詳細和耐心的指導。
If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.
Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??
Then Contact Me. I will solve your Problem...
加油吧,打工人!
猜你喜歡R數據分析:探索性因子分析
R語言作圖:如何在數據可視化過程中調整因子順序
R數據分析:如何用R做驗證性因子分析及畫圖,實例操練
R數據分析:雙因素方差分析與交互作用檢驗
R數據分析:主成分分析及可視化
R語言文本挖掘:情感極性分析 LDA主題建模「二」
R文本挖掘:文本主題分析topic analysis
R語言文本挖掘:情感極性分析 LDA主題建模 「一」
R數據分析:多分類邏輯回歸
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!