作者 | CDA數據分析師
來源 | CDA數據科學研究院
從事數據分析工作,統計基礎不可或缺。今天小編就來給大家好好梳理一下關于一名合格數據分析師所要掌握的統計基礎都有哪些,旨在為大家查缺補漏,讓大家的數據分析之路走得更紮實穩靠。
統計的基本任務是對經濟社會發展情況進行統計調查、統計分析,提供統計資料和統計咨詢意見、實行統計監督。統計的信息、咨詢和監督三大職能,是相互作用、相互促進、相輔相成和密切聯系的。信息職能是統計最基本的職能,是保證咨詢和監督職能得以有效發揮的前提。咨詢和監督職能是在信息職能基礎上的拓展和深化,是在充分發揮信息資源作用的基礎上,對統計整體效能的提高。
按照所采用的計量尺度的不同,可以将統計數據分為分類數據、順序數據和數值型數據。
分類數據是隻能歸于某一類别的非數字型數據,它是對事物進行分類的結果,數據表現為類别,是用文字來表述的。
順序數據是隻能歸于某一有序類别的非數字型數據。順序數據雖然也是類别,但這些類别是有序的。
數值型數據是按數字尺度測量的觀測值,其結果表現為具體的數值。現實中所處理的大多數數據都是數值型數據。
分類數據和順序數據說明的是事物的品質特征,通常是用文字來表述的,其結果均表現為類别,因而也可統稱為定性數據或稱品質數據;數值型數據說明的是現象的數量特征,通常是用數值來表現的,因此也可以稱為定量數據或數量數據。
本文主要介紹了一名合格的數據分析師所應具備的統計基礎——統計描述。數據分析的前提就是要學會觀察數據,了解數據,統計描述包括對數據的圖表描述和統計量描述,它能讓我們對數據有一個直觀的認識,比如數據是否完整、是否存在異常、服從什麼分布、存在什麼規律等,為數據預處理和數據分析做準備。
内容框架
一. 圖表描述
1. 分類數據描述
(1) 頻數分布表——單變量分布表
主要用于計數和彙總一個分類變量的數據,通過它可以使頻數、比例等一目了然,從而為進一步分析做準備。
(2) 頻數分布表——雙變量列聯表
主要用于計數和彙總兩個分類變量的數據,通過它可以使兩個變量交叉分類的頻數、比例等一目了然,從而為進一步分析做準備。
(3) 條形圖
它可以用來展示各類别的絕對值和數據的分布特征。它通過相同寬度條形的長短來表示各類别的數值大小。
(4) 帕累托圖
它可以用來比較各類别的頻數大小。它是按各類别數據出現的頻數多少排序後繪制的條形圖,通過對條形圖的排序,容易看出哪類數據出現得多,哪類數據出現的少。
(5) 餅圖
它可以用來展示一個樣本的結構。它通過一個圓來表示總的數值大小,用圓内各扇形的角度來表示各類别的數值大小。
(6) 環形圖
它可以顯示多個樣本各部分所占的相應比例,從而用來比較多個樣本的結構。它是把餅圖疊在一起,挖去中間的部分;圖中每一個環都表示一個樣本,樣本中的每一部分數據則用環中的一段表示。
2. 順序數據描述
(1) 頻數分布表——累計頻數分布表
主要用于計數和彙總順序變量的數據,通過它可以使頻數、比例、累積頻數、累積頻率等一目了然,從而為進一步分析做準備。
(2) 累計頻數分布圖
主要是用于展示順序變量的累積頻數分布情況。它是将各類别按級别大小進行升序或降序排列在橫坐标上,用縱坐标表示各類别的頻率,然後用折線繪制出累積頻率。
3. 數值型數據描述
(1) 頻數分布表——分組表
主要是用于計數和彙總數值型分組數據。通過它可以使分組後的頻數、比例等一目了然,從而為進一步分析做準備。
用于展示數據分布特征的圖形主要有以下幾種:
(2) 直方圖
它可以用來展示分組數據的分布特征。它用矩形的面積來表示頻數分布,在矩形的高度表示每一組的頻數或頻率,寬度則表示各組的組距。
直方圖與條形圖的區别與
區别:條形圖主要用來展示分類數據,其高度表示各類别頻數的多少,其寬度是固定的;直方圖則主要是用于展示數值型分組數據,是用面積表示頻數分布,矩形的高度表示每一組的頻數或頻率,寬度則表示各組的組距,因此其高度和寬度均有意義。且由于分組數據具有連續性,直方圖的各矩形通常是連續排列的,而條形圖則是分開排列的。
二者都用來展示數據的分布情況;在平面直角坐标系中,二者的橫軸都表示分組,縱軸都可表示頻數或頻率大小。
(3) 莖葉圖
它不僅可以用來反映數據的分布特征,還可以保留原始數據的信息,更适用于觀察少量數據的分布。它由“莖”和“葉”兩部分構成。繪制時,首先将一個數值分成兩部分,通常是以該數據的高位數值作為樹莖,而葉上隻保留該數值的最後一個數字。
(4) 箱線圖
它不僅可以用來反映原始數據的分布特征,還可以進行多組數據分布特征的比較。繪制時,先找出數據的最大值、最小值、中位數和兩個四分位數;然後連接兩個四分位數畫出箱子;再将最大值和最小值與箱子相連,中位數在箱子中間。箱線圖還可用來尋找離群點,從而來處理數據的異常值。
用于展示時間序列的圖形:
(5) 線圖
它可以用于展示時間序列數據,反映現象随時間變化的特征。繪制時,時間一般繪在橫軸,觀測值繪在縱軸。一般情況下,橫軸應長于縱軸,縱軸數據下端應從“0”開始(若起始數據與“0”相差大,可采用折斷符号),以便于比較。
用于展示變量之間的關系的圖形主要有以下幾種:
(6) 散點圖(兩個數值型變量)
它可以用來展示兩個數值型變量之間的關系,一個變量在橫軸,一個變量在縱軸,通過觀察散點的趨勢判斷兩變量的相關性。
(7)氣泡圖(三個數值型變量)
它可以用來展示三個數值型變量之間的關系。第一個變量用橫軸表示,第二個變量用縱軸表示,第三個變量用氣泡的大小表示。
(8)矩陣散點圖(兩個以上數值型變量)
它可以用來同時比較多個變量兩兩之間的關系。
(9)雷達圖(兩個以上數值型變量)
它是從一點出發,用每一條射線代表一個變量,多個變量的數據的連成線就圍成了一個區域,多個樣本就能繪制多個區域 ,從而方便研究各樣本間的相似程度。
(10)輪廓圖(兩個以上數值型變量)
它是用橫軸表示各樣本,縱軸表示每個樣本的多個變量的取值,将不同樣本同一個變量的取值用折線連接,從而便于分析各個樣本之間的相似程度。
二. 統計量描述
1. 集中趨勢度量
(1) 分類數據:衆數
衆數是一組數據中出現次數最多的變量值,常用于反映一組分類數據的集中趨勢,且不受極端值影響。
(2) 順序數據:中位數、四分位數
中位數是一組數據排序後處于中間位置的變量值。四分位數是一組數據排序後處于25%和75%位置上的值。它們常用于反映一組順序數據的集中趨勢,且不受極端值影響。
(3) 數值型數據:平均數
平均數是一組數據相加後除以數據的個數得到的結果,它的計算公式有多種,如簡單平均數、加權平均數、幾何平均數。主要是用于反映一組數值型數據的集中趨勢,且易受極端值影響。
2. 離散程度度量
(1) 分類數據:異衆比率
異衆比率是指非衆數組的頻數占總頻數的比例,它主要用于衡量衆數對一組數據的代表程度。其值越大,衆數的代表性越差;值越小,衆數代表性越好。
(2) 順序數據:四分位差
四分位差是上四分位數與下四分位數之差。它反映了中間50%數據的離散程度,其數值越小說明數據越集中,數值越大說明數據越發散。
(3) 數值型數據:方差和标準差
方差是各變量值與其均值離差平方的平均數。方差的平方根成為标準差。它們是實際中應用最廣的數值型數據離散程度測度值。其值越大,說明數據越分散。此外,還有極差、平均差等可以對離散程度進行測度。
此外,還有極差,平均差等統計量有時也可以反映數值型數據的離散程度,不過極差描述的效果不太好,而平均差則不方便計算,故不常用。
注:數值型數據的相對位置度量用标準分數(sc)如z=-1.5,則表示該數值低于平均數的1.5倍标準差,标準分數公式如下:
3. 分布形狀度量:偏态系數、峰态系數
(1) 偏态系數是對數據分布對稱性的測度,當分布對稱時,其值為0;分布左偏時,其值為負;分布右偏時,其值為正。
(2) 峰态系數是對數據分布平峰或尖峰程度的測度,它是通過與标準正态分布的峰态系數進行比較來實現的,當分布為正态時,其值為0;分布為尖峰時,其值為正;分布為平峰時,其值為負。
4. 相對離散程度:離散(變異)系數
離散系數是一組數據的标準差與其相應的平均數之比,其計算公式為:
它主要用來比較不同樣本之間的離散程度。離散系數越大,說明數據的離散程度越大;離散系數越小,則說明數據的離散程度越小。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!