編輯導語:數據分析離不開統計學知識的輔助,其中,區間估計指的是在點估計的基礎上,得出一個相對合理的取值範圍,這一方法雖然當下使用得較少,但是對其進行學習,有助于幫助我們理解其他概念,如假設檢驗等。本文作者就對區間估計的概念和操作方法等進行了總結,一起來看一下。
大家好,我是愛學習的小xiong熊妹。
很多小夥伴想知道:做數據分析,到底要懂多少統計學?小熊妹很認真地做一個懶人攻略,不講複雜的理論,直接講實際操作,希望能幫助到大家哦。
如果要講統計學,第一個概念要從區間估計講起,這是後續很多方法的基礎。
一聽:“區間估計”的名字,很多小夥伴會一腦袋問号:
今天的分享就從這裡開始。
一、什麼是“估計”“估計”是指用抽樣的數據估計全體的數據情況。之所以這麼做,是因為很多時候,想全體采集數據太難了!比如生産真空包裝雞腿的企業,要檢查質量,就得把包裝拆開,那雞腿就不能再賣了。這是多大的損失呀!所以必須抽樣。
如果直接用抽樣數據代表全體數據,就是所謂:點估計。
常見的點估計指标有2個:
- 平均值:比如抽樣雞腿的平均重量為150克。
- 比例:比如抽樣雞腿的衛生合格率為99.9%。
但是,直接這麼做會有問題,就是:抽樣對象不同,點估計值經常有差異。為了解決這個問題,有了區間估計的做法。
二、什麼是“區間估計”通俗地講:區間估計是在點估計的基礎上,給一個合理取值範圍。
比如:抽樣雞腿的平均重量為150克,是一個點估計值。抽樣雞腿的平均重量為145克到155克之間,是一個區間估計。
其中,145到155稱為置信區間。這很符合人們的常規理解:東西很難100%準确,有個範圍也是可以理解的。
但這個範圍有多大可信度呢?人們用置信置信水平來衡量,即:“我們有多大把握,真實值在置信區間内”。一般用(1-α)表示。如果α取0.05,則置信水平為0.95,即95%的把握。
置信區間與置信水平連起來,完整的表達為:“我們有95%的把握,雞腿平均重量在145至155克之間。”
有小夥伴會好奇,為啥置信水平不是100%!通俗地說,當置信水平太高時,置信區間會變得非常大,從而産生一些正确但無用的結論。
比如:我們有100%的把握,小熊妹顔值在負分滾粗(-10分)與美若天仙(10分)之間……這是句正确的廢話。
再比如:我們有95%的把握,小熊妹是個顔值8分的美女(10分滿分)……這個結論是不是有用多了!
三、如何做區間估計做區間估計需要四步,不想看原理的小夥伴,死記硬背即可。
- 第一步:确認抽樣對象和要計算的指标(看算平均值還是比例);
- 第二步:進行抽樣,獲得樣本數據(平均值、比例、方差、樣本量);
- 第三步:給定置信水平(1-α值);
- 第四步:利用Z分布,求出對應置信區間範圍。
計算公式為:
隻要把公式的參數,套進去即可。其中标準差,Z值/t值,平均值等參數,在各種計算工具裡都有現成的公式可以用。
四、兩個簡單的例子某公司主要針對中老年群體開發産品,用戶在購買時無需提供身份信息,因此不清楚用戶年齡。
現需抽樣,調查其目标客戶的年齡是否符合“中老年”的範疇,抽樣數據如下,請計算90%置信水平下的目标客戶年齡置信區間(如下圖)。
再看個比例的例子。某公司想了解用戶滿意度,而有相當比例的用戶沒有在商品評價裡打分,因此采用調查方法,抽300名未在網站打分用戶調查,其中182名用戶表示滿意,求95%置信水平下,用戶滿意率的置信區間(如下圖)。
看到這個結果,反應快的小夥伴已經馬上意識到:這種計算能用來驗證業務有沒有撒謊!比如上例中,如果業務方說“用戶滿意率肯定在70%以上”這樣謊言就被戳穿了。
實際上,也确實是如此操作的。區間估計的方法是做假設檢驗的基礎理論,所以小夥們都得掌握一下。
五、這麼神奇的方法,為啥平時不咋用?答:現代企業采集數據的手段豐富了很多,特别是互聯網企業,用戶的注冊、點擊、互動數據是全體收集的。因此想了解用戶消費情況,完全可以針對全體統計消費率、消費金額等指标。就不需要抽樣了,因此用得很少。
但這不意味着運營、産品、銷售的同學就不需要掌握這個概念。因為這兩年ABtest大行其道,導緻抽樣實驗的方法又形成一輪文藝複興。
先掌握區間估計的方法,對後邊理解單樣本/雙樣本/多樣本假設檢驗,有巨大幫助。這一點,講到後邊大家都理解了。
以上就是今天的分享,謝謝大家。
作者:碼工小熊,碼工小熊
本文由 @碼工小熊 原創發布于人人都是産品經理,未經許可,禁止轉載。
題圖來自 Unsplash,基于CC0協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!