class:班級。19财管1—19财管6。分類變量。glkj:管理會計,該科目考試成績。DescriptiveStatistics#分組聚合,..."/>

tft每日頭條

 > 教育

 > 描述性統計考試

描述性統計考試

教育 更新时间:2026-02-16 10:22:18

  本案例有關說明本案例是分布拟合檢驗預測、單因素方差分析One-Way ANOVA的基礎前導篇。基本概念不在此贅述。本案例分析所用數據為“19财管管理會計成績.xlsx”。該數據可以在我的百度網盤上下載。 鍊接:htt left;" data-track="191">class:班級。19财管1—19财管6。分類變量。glkj:管理會計,該科目考試成績。 描述性統計考試(12描述性統計分析)(2)

  Descriptive Statistics # 分組聚合,統計均值、次數、标準差等 stats = df.groupby(classglkj].agg([meancountstdminmax]) # 計算0.05水平下的置信區間 ci95_hi = [] ci95_lo = [] co_v = [] for i in stats.index: m, c, s = stats.loc[i,[meancountstd]] ci95_hi.append(m 1.96 * s/math.sqrt(c)) ci95_lo.append(m - 1.96 * s/math.sqrt(c)) co_v.append(s/m) stats[ci95_LB] = ci95_lo stats[ci95_UB] = ci95_hi stats[c.v] = co_v

  統計量statsmean:均值std : 标準差min/max : 最小/最大值median : 中位數skew : 偏度ci : 置信區間c.v : 變異系數 上述“統計量”的基本概念計算方法及計算公式網上講解很多,在此就不具體列出了,需要的請百度。

  統計量如下圖所示:

  描述性統計考試(12描述性統計分析)(3)

  描述性統計考試(12描述性統計分析)(4)

  描述性統計考試(12描述性統計分析)(5)

  上面圖表反映的基本信息管理會計科目成績平均值都較高,中位數均在90分以上的有四個班,特别是19财管5班均值高達93分,中位數95分。該班成績離散程度最小,成績變異程度最小。所有班級管理會計科目成績分布呈現“左偏”。均值小于中位數。boxplot & hist:了解大概的分布、發現異常值 # Draw a nested boxplot df.boxplot(column=glkj, by=class, grid=False) sns.hist(column=glkj, by=class,figsize=(8,6) ,sharex=True,sharey=True) sns.despine(offset=10, trim=True)

  描述性統計考試(12描述性統計分析)(6)

  描述性統計考試(12描述性統計分析)(7)

  核密度kde: 了解分布形态 #use sys default settings ax = sns.distplot(a= df[glkj]) ax.set(title=19财管管理會計成績, xlabel=管理會計成績,ylabel=)

  描述性統計考試(12描述性統計分析)(8)

  Signature: sns.distplot(a, bins=None, hist=True, kde=True)

  該圖的成績分段使用系統默認的設置。結果整體成績是否為“左偏”?确實是“左偏”。

  總體成績的hist & kde:了解總體分布情況 # set bins fig,(ax1,ax2)= plt.subplots(1,2,sharex=True, figsize=(7,5)) plt.subplot(1,2,1) ax1 = sns.distplot(a=df[glkj], bins=[10, 20, 30, 40, 50, 60, 70, 80, 90,100], norm_hist= False,hist=True, kde=False,label=管理會計成績) ax1.set(title=19财管管理會計成績,xlabel=管理會計成績,ylabel=Count) ax1.legend(loc=best) #plt.tight_layout(rect=(1, 1, 1, 1)) #設置默認的間距 plt.subplot(1,2,2) ax2 = sns.distplot(a=df[glkj], bins=[10, 20, 30, 40, 50, 60, 70, 80, 90,100], norm_hist= True,hist=True, kde=True,label=管理會計成績KDE,color=green) ax2.set(title=19财管管理會計成績KED,xlabel=管理會計成績,ylabel=) ax2.legend(loc=best) plt.subplots_adjust(wspace=0.3) plt.show()

  描述性統計考試(12描述性統計分析)(9)

  使用pd.cut():自定義分段及頻數統計 bins = [0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 101] labels = [0-1010-2020-3030-4040-5050-6060-7070-8080-9090 ]

  用法說明:pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False)x:需要切分的數據bins:切分區域right : 是否包含右端點默認True,包含labels:對應标簽,用标記來代替返回的bins,若不在該序列中,則返回NaNretbins:是否返回間距binsprecision:精度include_lowest:是否包含左端點,默認False,不包含right : 是否包含右端點默認True,包含。該例為不包括False。[a,b) df[glkj_bins] = pd.cut(df[glkj], bins=bins, labels=labels, include_lowest=True, right=False) class_count = df.groupby(by= classglkj_bins].value_counts() pd_class_count= pd.DataFrame(class_count) pd_unstack = pd_class_count.unstack(fill_value=0)

  描述性統計考試(12描述性統計分析)(10)

  分班級hist、kde:了解各班分布情況 for i in range(6): fig,(ax1,ax2)= plt.subplots(1,2,sharex=True,figsize=(8,6)) plt.subplot(1,2,1) ax1 = sns.barplot(count_bins,pd_unstack.values[i],label=pd_unstack.index[i]) ax1.legend(loc=best) ax1.set(xlabel= 管理會計分段成績,ylabel= Count,title = 管理會計分班級成績圖) list_n = pd_unstack.values[i] for j, txt in enumerate(list_n): ax1.annotate(txt, (j, list_n[j] 0.6),horizontalalignment=center,verticalalignment=center) plt.subplot(1,2,2) ax2 = sns.distplot(a=df.loc[df[class]== pd_unstack.index[i]][glkj],bins=[10, 20, 30, 40, 50, 60, 70, 80, 90,100],norm_hist= True,hist=True, kde=True,label= pd_unstack.index[i],color=green) ax2.set(title=管理會計分班級成績kde,xlabel=管理會計成績,ylabel=) ax2.legend(loc=best) plt.show()

  描述性統計考試(12描述性統計分析)(11)

  描述性統計考試(12描述性統計分析)(12)

  描述性統計考試(12描述性統計分析)(13)

  描述性統計考試(12描述性統計分析)(14)

  描述性統計考試(12描述性統計分析)(15)

  描述性統計考試(12描述性統計分析)(16)

  描述性統計考試(12描述性統計分析)(17)

  描述性統計考試(12描述性統計分析)(18)

  描述性統計考試(12描述性統計分析)(19)

  ,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关教育资讯推荐

热门教育资讯推荐

网友关注

Copyright 2023-2026 - www.tftnews.com All Rights Reserved