單變量推論統(tǒng)計1:參數(shù)估計.ppt
《單變量推論統(tǒng)計1:參數(shù)估計.ppt》由會員分享,可在線閱讀,更多相關《單變量推論統(tǒng)計1:參數(shù)估計.ppt(30頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第三章單變量的推論統(tǒng)計之一:參數(shù)估計,第一節(jié)抽樣分布第二節(jié)參數(shù)的點估計和區(qū)間估計,,第一節(jié)抽樣分布一、相關名詞解釋參數(shù)值統(tǒng)計值隨機抽樣隨機樣本,,,二、蒙特卡羅抽樣分布:常見的統(tǒng)計問題是:總體未知,比如我們并不知道華電所有學生的大學語文的平均分為u=65。我們只是隨機抽樣,比如抽取了3000名學生,得知這個3000名學生所構(gòu)成的樣本的均值=64。因此我們用得到的這個樣本統(tǒng)計值去估計總體的參數(shù)值。但是我們都知道,樣本是隨機抽取的,不同的人抽取到的樣本(假設讓全班28個人每個人都抽一個3000人容量的樣本)是不同的,同一個人反復抽樣時也很可能抽取到不同的樣本。根據(jù)排列組合,抽到的是無限個情況的樣本。我們反復從華電學生(假設是10000名)中抽3000個人組成樣本,每次都計算出一個新的樣本均值,那么將會得到無數(shù)個樣本均值,這種重復抽樣的方法就叫蒙特卡羅抽樣方法。從每個樣本中可以計算出一個樣本均值,我們將重復抽取的n個樣本的都計算出來,研究發(fā)現(xiàn),這些均值就構(gòu)成了均值的蒙特卡羅抽樣分布。,,,,,因此可見,它是一種理論分布。研究發(fā)現(xiàn):1、抽樣分布的圖形顯示樣本均值圍繞其目標u,以標準誤差SE=σ/近似正態(tài)地波動。(因此n越大,SE越小,即波動越小)2、同樣地,我們發(fā)現(xiàn)樣本比例p也可以用這個方法來處理,它圍繞其目標P,以標準誤差SE=近似正態(tài)地波動。,,,,三、對比總體分布、樣本分布、抽樣分布1、參數(shù)值:u和σ都是唯一確定的值。統(tǒng)計值:由于總體容量N〉樣本容量n,因為重復抽樣時,每次抽取到的元素都會不盡相同。因此,不同的樣本的統(tǒng)計量很可能不同。2、抽樣中樣本只涉及到總體中的部分元素而不是全部元素。因為樣本的統(tǒng)計量與總體的參數(shù)值之間總是存在一定的差別,我們引入抽樣分布的概念,旨在對這種差別進行一定的說明。3、均值的正態(tài)近似原理:樣本均值以SE的標準誤差圍繞總體均值u波動。隨著n的增加,波動越來越小,越接近正態(tài)分布。(n≥30),,4、比例的正態(tài)近似定理:在容量為n的隨機樣本中,樣本比例p以SE=的標準誤差圍繞總體比例波動。隨著n的增加,p的分布也就圍繞其目標波動地原來越小,越來越接近正態(tài)分布。(n≥30,np≥5)5、抽樣分布是關于樣本均值的分布,它的均值就是總體的均值u,即。。。,而抽樣分布的標準差,將之稱為標準誤差SE,以與總體分布、樣本分布相區(qū)分。其中SE=,而當樣本相當大時,一般用樣本的標準差s來代替總體。,,例:臺灣的一次普遍調(diào)查顯示,臺灣民眾的月收入近似地服從正態(tài)分布,其均值為13110臺幣,標準差為8750元,求:(1)隨機地抽取一個人,其收入超過18430元的概率。(2)抽取一個含有50人的隨機樣本,求其平均收入超過16000元的概率。(3)如果總體不是正態(tài)的,那么(2)的答案是什么?,,例:全廠滿意工作環(huán)境的工人比例為35%,現(xiàn)在從全廠中隨機抽取150名工人,問其滿意工作環(huán)境的工人比例超過45%的概率。,,作業(yè)題:1、試計算以下數(shù)值的四分位差、中位數(shù)、眾數(shù)2,3,4,5,4,4,2,5,6,6,7,,2、調(diào)查某地區(qū)的212個鄉(xiāng),目的是要知道每個鄉(xiāng)之育齡婦女(15-44歲)落實計劃生育的比率,以下為收集到的資料。1)試求四分位差。2)試求40百分位數(shù)點的值。,,第二節(jié)參數(shù)的點估計和區(qū)間估計,一、點估計1、總體均值的點估計值。2、總體方差的點估計值。3、總體標準差的點估計值。4、總體比例的點估計值。,,二、區(qū)間估計(即:求置信區(qū)間)1、基本概念置信度:又稱可信度、置信水平。即總體的參數(shù)值落在置信區(qū)間的把握?;蛘哒f用置信區(qū)間去估計總體參數(shù)值時,成功的可能性有多大。置信區(qū)間:在一定的置信水平下,根據(jù)樣本的統(tǒng)計值來估計總體的參數(shù)值處于一定的區(qū)間之內(nèi),這個區(qū)間就是置信區(qū)間。顯著度:又稱顯著性水平。它表示用置信區(qū)間來估計總體參數(shù),其不可靠的概率。若置信水平為95%,則顯著性水平為5%或0.05。,,2、置信區(qū)間與置信度之間的關系相互制約置信度高低反映的是這種估計的可靠性或把握性的問題,而置信區(qū)間的大小反映的是這種估計的精確性問題。對于同一個總體和同一個抽樣規(guī)模來說,所給區(qū)間的大小與做出這種估計所具有的把握性成正比。即區(qū)間越大,則對這一估計成功的把握性也越大;反之,則把握性越小。綜上,從精確性出發(fā),要求所估計的區(qū)間越小越好,但是從把握性出發(fā),又要求所估計的區(qū)間越大越好。人們總是需要在二者兼進行平衡與選擇。,,3、總體均值的區(qū)間估計1)總體方差σ已知時,大、小樣本的均值估計2)總體方差σ未知時,大樣本的均值估計3)總體方差σ未知時,小樣本的均值估計4)未知總體比例(成數(shù)),大樣本的比例估計5)未知總體比例,小樣本的比例估計例:設某工廠婦女從事家務勞動時間服從正態(tài)分布N(u,),隨機抽取了一個n=36的樣本,發(fā)現(xiàn)其每天平均從事家務勞動的時間=2.65小時,求u的雙側(cè)置信區(qū)間。(a=0.05)解:,,,,例:設某工廠婦女從事家務勞動時間服從正態(tài)分布N(u,),隨機抽取了一個n=25的樣本,發(fā)現(xiàn)其每天平均從事家務勞動的時間=2.65小時,求u的雙側(cè)置信區(qū)間。(a=0.05)解:,,,總結(jié):1)總體參數(shù)u是常數(shù),并且一直保持不變,變化的是隨機區(qū)間,其中心為,長度為2SE。2)隨著樣本含量n的增加,的標準誤差σ/也越來越小,因此置信區(qū)間也變得更窄更精確。這就是增加樣本含量的價值。3)隨著置信度的增高,也隨之增大,因此置信區(qū)間變得更寬,即更加含糊不明確,這也是可以理解的:要想把某一個聲明表達得更有把握,就必須使其更加含糊不明確。因此置信度和精確度之間是矛盾的。我們對于實際問題總是在兩者之間作一個合理的折衷。,,,,,,,例:設某社區(qū)受教育程度服從正態(tài)分布N(u,σ),根據(jù)35人的隨機抽樣調(diào)查,=11.5年,S=3.6年,求u的雙側(cè)置信區(qū)間。(a=0.01)解:,,例:設某社區(qū)受教育程度服從正態(tài)分布N(u,σ),σ未知,根據(jù)26人的隨機抽樣調(diào)查,=11.5年,S=3.6年,求u的雙側(cè)置信區(qū)間。(a=0.01)解:,,,,,t分布是適用于小樣本的一種分布。其扁平或高聳的程度取決于自由度(df=n-1),其自由度越大,越高聳,形狀與標準正態(tài)分布曲線越接近。當n≥30時,一般認為與正態(tài)分布近似。t分布與正態(tài)分布的相似之處:t分布基線上的t值從-∞-+∞;平均數(shù)等于0處,左側(cè)t值為負,右側(cè)t值為正;曲線以平均數(shù)處為最高點向兩側(cè)逐漸下降,尾部無限延伸,永不與基線相接,呈單峰對稱形。使用t分布的條件:必須假定總體為正態(tài)分布。(與使用Z分布的不同之處),,為什么t分布的自由度是n-1而不是n呢?自由度:指的是可以自由取值的個案的數(shù)目,對于一組數(shù)據(jù)來說,假定n=1,則我們可以算出均值(就是這個唯一的數(shù)本身),但是無法考慮分布的形狀。描述分布的形狀最有價值的是方差,只有n超過1,我們才能得到這組數(shù)據(jù)分布的方差。(=),因此對于方差來說,均值占用了一個自由度,其余的n-1個自由度留給了方差。例:有5個數(shù),其均值為3,請問:1)你能確定這5個數(shù)都是什么嗎?2)如果不能,那么請問其中有幾個數(shù)是可以自由取值的?,,,戈塞爾用筆名“學生”發(fā)表。為什么分母中根號下為n-1?樣本數(shù)據(jù)的離散程度小于總體數(shù)據(jù)的離散程度(假設用全距這個離散量數(shù)來說明)。因此樣本的標準差會比總體的標準差偏小。因此s除以根號n會有偏誤,所以采用了根號n-1,在nS/,因此分母中為更貼近于σ/),,,,,,,,例:從某社區(qū)取n=200個家庭的樣本,36%的家庭中家庭事務是丈夫說了算,問:此社區(qū)家庭事務是丈夫說了算的家庭比例的置信區(qū)間。(a=0.01)解:法一:法二:,,4、二總體均值差的區(qū)間估計1)已知σ,大樣本(n1+n2≥100)2)已知σ,小樣本(n1+n2<100)3)未知σ,大樣本4)未知σ,小樣本5、二總體成數(shù)差的區(qū)間估計,,例:為了了解甲、乙兩地中學畢業(yè)生成績的差別,兩地作了抽樣調(diào)查,結(jié)果顯示:甲地:=520,S1=40,n1=800名,乙地:=505,S2=50,n2=1000名,求:a=0.05時,兩地平均成績差的區(qū)間估計。,,,,,,例:有兩個小組,甲小組:n1=11,人均每周抽煙=5盒,S1=1.5。乙小組:n2=11,人均每周抽煙=7盒,S2=2.0,求:a=0.05時,兩組抽煙均值差的置信區(qū)間。,,,,,,例:甲、乙兩地各做1000戶抽樣調(diào)查,其中甲地擁有電視機為825戶;乙地擁有電視機為760戶。求:a=0.05時,兩地電視機擁有比例(成數(shù))差的置信區(qū)間。,,6、單側(cè)置信區(qū)間,,例:設某工廠月平均收入服從正態(tài)分布N(u,),隨機抽取了一個n=36的樣本,發(fā)現(xiàn)其每人平均月平均收入為265元,求u的單側(cè)置信區(qū)間。(a=0.05)解:,,,作業(yè):1、我國某地區(qū)成年人教育水平的均值為8.2年,標準差為3年。隨機抽取了25位成年人進行調(diào)查,發(fā)現(xiàn)平均受學校教育在7-9年之間的概率是多少?(抽樣分布)2、一架電梯是按照極限負重為1000公斤設計的,聲稱可以容納13人。假定利用該電梯的所有乘客重量的平均值為70公斤,標準差為12公斤。那么一個13人的隨機樣本的重量總體超過負重極限1000公斤的概率是多少?(先算出樣本均值),,3、課本403,六A4、課本403,六B,- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關 鍵 詞:
- 變量 推論 統(tǒng)計 參數(shù)估計
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。
鏈接地址:http://www.3dchina-expo.com/p-11523221.html