《高中數(shù)學 統(tǒng)計 板塊四 統(tǒng)計數(shù)據(jù)的數(shù)字特征完整講義(學生版)》由會員分享,可在線閱讀,更多相關《高中數(shù)學 統(tǒng)計 板塊四 統(tǒng)計數(shù)據(jù)的數(shù)字特征完整講義(學生版)(7頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、學而思高中完整講義:統(tǒng)計.板塊四.統(tǒng)計數(shù)據(jù)的數(shù)字特征.學生版
知識內(nèi)容
一.隨機抽樣
1.隨機抽樣:滿足每個個體被抽到的機會是均等的抽樣,共有三種經(jīng)常采用的隨機抽樣方法:
⑴簡單隨機抽樣:從元素個數(shù)為的總體中不放回地抽取容量為的樣本,如果每一次抽取時總體中的各個個體有相同的可能性被抽到,這種抽樣方法叫做簡單隨機抽樣.
抽出辦法:①抽簽法:用紙片或小球分別標號后抽簽的方法.
②隨機數(shù)表法:隨機數(shù)表是使用計算器或計算機的應用程序生成隨機數(shù)的功能生成的一張數(shù)表.表中每一位置出現(xiàn)各個數(shù)字的可能性相同.
隨機數(shù)表法是對樣本進行編號后,按照一定的規(guī)律從隨機數(shù)表中讀數(shù),并取出相應的
2、樣本的方法.
簡單隨機抽樣是最簡單、最基本的抽樣方法.
⑵系統(tǒng)抽樣:將總體分成均衡的若干部分,然后按照預先制定的規(guī)則,從每一部分抽取一個個體,得到所需要的樣本的抽樣方法.
抽出辦法:從元素個數(shù)為的總體中抽取容量為的樣本,如果總體容量能被樣本容量整除,設,先對總體進行編號,號碼從到,再從數(shù)字到中隨機抽取一個數(shù)作為起始數(shù),然后順次抽取第個數(shù),這樣就得到容量為的樣本.如果總體容量不能被樣本容量整除,可隨機地從總體中剔除余數(shù),然后再按系統(tǒng)抽樣方法進行抽樣.
系統(tǒng)抽樣適用于大規(guī)模的抽樣調(diào)查,由于抽樣間隔相等,又被稱為等距抽樣.
⑶分層抽樣:當總體有明顯差別的幾部分組成時,要反映總體情況,常采用
3、分層抽樣,使總體中各個個體按某種特征分成若干個互不重疊的幾部分,每一部分叫做層,在各層中按層在總體中所占比例進行簡單隨機抽樣,這種抽樣方法叫做分層抽樣.
分層抽樣的樣本具有較強的代表性,而且各層抽樣時,可靈活選用不同的抽樣方法,應用廣泛.
2.簡單隨機抽樣必須具備下列特點:
⑴簡單隨機抽樣要求被抽取的樣本的總體個數(shù)是有限的.
⑵簡單隨機樣本數(shù)小于等于樣本總體的個數(shù).
⑶簡單隨機樣本是從總體中逐個抽取的.
⑷簡單隨機抽樣是一種不放回的抽樣.
⑸簡單隨機抽樣的每個個體入樣的可能性均為.
3.系統(tǒng)抽樣時,當總體個數(shù)恰好是樣本容量的整數(shù)倍時,??;
若不是整數(shù)時,先從總體中隨機地剔除幾
4、個個體,使得總體中剩余的個體數(shù)能被樣本容量整除.因為每個個體被剔除的機會相等,因而整個抽樣過程中每個個體被抽取的機會仍然相等,為.
二.頻率直方圖
列出樣本數(shù)據(jù)的頻率分布表和頻率分布直方圖的步驟:
①計算極差:找出數(shù)據(jù)的最大值與最小值,計算它們的差;
②決定組距與組數(shù):取組距,用決定組數(shù);
③決定分點:決定起點,進行分組;
④列頻率分布直方圖:對落入各小組的數(shù)據(jù)累計,算出各小數(shù)的頻數(shù),除以樣本容量,得到各小組的頻率.
⑤繪制頻率分布直方圖:以數(shù)據(jù)的值為橫坐標,以的值為縱坐標繪制直方圖,
知小長方形的面積=組距×=頻率.
頻率分布折線圖:將頻率分布直方圖各個長方形上邊的中點
5、用線段連接起來,就得到頻率分布折線圖,一般把折線圖畫成與橫軸相連,所以橫軸左右兩端點沒有實際意義.
總體密度曲線:樣本容量不斷增大時,所分組數(shù)不斷增加,分組的組距不斷縮小,頻率分布直方圖可以用一條光滑曲線來描繪,這條光滑曲線就叫做總體密度曲線.總體密度曲線精確地反映了一個總體在各個區(qū)域內(nèi)取值的規(guī)律.
三.莖葉圖
制作莖葉圖的步驟:
①將數(shù)據(jù)分為“莖”、“葉”兩部分;
②將最大莖與最小莖之間的數(shù)字按大小順序排成一列,并畫上豎線作為分隔線;
③將各個數(shù)據(jù)的“葉”在分界線的一側對應莖處同行列出.
四.統(tǒng)計數(shù)據(jù)的數(shù)字特征
用樣本平均數(shù)估計總體平均數(shù);用樣本標準差估計總體標準差
6、.
數(shù)據(jù)的離散程序可以用極差、方差或標準差來描述.
極差又叫全距,是一組數(shù)據(jù)的最大值和最小值之差,反映一組數(shù)據(jù)的變動幅度;
樣本方差描述了一組數(shù)據(jù)平均數(shù)波動的大小,樣本的標準差是方差的算術平方根.
一般地,設樣本的元素為樣本的平均數(shù)為,
定義樣本方差為,
樣本標準差
簡化公式:.
五.獨立性檢驗
1.兩個變量之間的關系;
常見的有兩類:一類是確定性的函數(shù)關系;另一類是變量間存在關系,但又不具備函數(shù)關系所要求的確定性,它們的關系是帶有一定隨機性的.當一個變量取值一定時,另一個變量的取值帶有一定隨機性的兩個變量之間的關系叫做相關關系.
2.散點圖:將樣本中的個數(shù)據(jù)點描在平
7、面直角坐標系中,就得到了散點圖.
散點圖形象地反映了各個數(shù)據(jù)的密切程度,根據(jù)散點圖的分布趨勢可以直觀地判斷分析兩個變量的關系.
3.如果當一個變量的值變大時,另一個變量的值也在變大,則這種相關稱為正相關;此時,散點圖中的點在從左下角到右上角的區(qū)域.
反之,一個變量的值變大時,另一個變量的值由大變小,這種相關稱為負相關.此時,散點圖中的點在從左上角到右下角的區(qū)域.
散點圖可以判斷兩個變量之間有沒有相關關系.
4.統(tǒng)計假設:如果事件與獨立,這時應該有,用字母表示此式,即,稱之為統(tǒng)計假設.
5.(讀作“卡方”)統(tǒng)計量:
統(tǒng)計學中有一個非常有用的統(tǒng)計量,它的表達式為,用它的大小可以用來決
8、定是否拒絕原來的統(tǒng)計假設.如果的值較大,就拒絕,即認為與是有關的.
統(tǒng)計量的兩個臨界值:、;當時,有的把握說事件與有關;當時,有的把握說事件與有關;當時,認為事件與是無關的.
獨立性檢驗的基本思想與反證法類似,由結論不成立時推出有利于結論成立的小概率事件發(fā)生,而小概率事件在一次試驗中通常是不會發(fā)生的,所以認為結論在很大程度上是成立的.
1.獨立性檢驗的步驟:統(tǒng)計假設:;列出聯(lián)表;計算統(tǒng)計量;查對臨界值表,作出判斷.
2.幾個臨界值:.
聯(lián)表的獨立性檢驗:
如果對于某個群體有兩種狀態(tài),對于每種狀態(tài)又有兩個情況,這樣排成一張的表,如下:
狀態(tài)
狀態(tài)
合計
狀態(tài)
9、
狀態(tài)
如果有調(diào)查得來的四個數(shù)據(jù),并希望根據(jù)這樣的個數(shù)據(jù)來檢驗上述的兩種狀態(tài)與是否有關,就稱之為聯(lián)表的獨立性檢驗.
六.回歸分析
1.回歸分析:對于具有相關關系的兩個變量進行統(tǒng)計分析的方法叫做回歸分析,即回歸分析就是尋找相關關系中這種非確定關系的某種確定性.
回歸直線:如果散點圖中的各點都大致分布在一條直線附近,就稱這兩個變量之間具有線性相關關系,這條直線叫做回歸直線.
2.最小二乘法:
記回歸直線方程為:,稱為變量對變量的回歸直線方程,其中叫做回歸系數(shù).
是為了區(qū)分的實際值,當取值時,變量的相應觀察值為,而直線上對應于的縱坐標是.
設的
10、一組觀察值為,,且回歸直線方程為,
當取值時,的相應觀察值為,差刻畫了實際觀察值與回歸直線上相應點的縱坐標之間的偏離程度,稱這些值為離差.
我們希望這個離差構成的總離差越小越好,這樣才能使所找的直線很貼近已知點.
記,回歸直線就是所有直線中取最小值的那條.
這種使“離差平方和為最小”的方法,叫做最小二乘法.
用最小二乘法求回歸系數(shù)有如下的公式:
,,其中上方加“”,表示是由觀察值按最小二乘法求得的回歸系數(shù).
3.線性回歸模型:將用于估計值的線性函數(shù)作為確定性函數(shù);的實際值與估計值之間的誤差記為,稱之為隨機誤差;將稱為線性回歸模型.
產(chǎn)生隨機誤差的主要原因有:
①所用的確定
11、性函數(shù)不恰當即模型近似引起的誤差;
②忽略了某些因素的影響,通常這些影響都比較??;
③由于測量工具等原因,存在觀測誤差.
4.線性回歸系數(shù)的最佳估計值:
利用最小二乘法可以得到的計算公式為
,,其中,
由此得到的直線就稱為回歸直線,此直線方程即為線性回歸方程.其中,分別為,的估計值,稱為回歸截距,稱為回歸系數(shù),稱為回歸值.
5.相關系數(shù):
6.相關系數(shù)的性質:
⑴;
⑵越接近于1,的線性相關程度越強;
⑶越接近于0,的線性相關程度越弱.
可見,一條回歸直線有多大的預測功能,和變量間的相關系數(shù)密切相關.
7.轉化思想:
根據(jù)專業(yè)知識或散點圖,對某些特殊的非線性關
12、系,選擇適當?shù)淖兞看鷵Q,把非線性方程轉化為線性回歸方程,從而確定未知參數(shù).
8.一些備案
①回歸(regression)一詞的來歷:“回歸”這個詞英國統(tǒng)計學家Francils Galton提出來的.1889年,他在研究祖先與后代的身高之間的關系時發(fā)現(xiàn),身材較高的父母,他們的孩子也較高,但這些孩子的平均身高并沒有他們父母的平均身高高;身材較矮的父母,他們的孩子也較矮,但這些孩子的平均身高卻比他們父母的平均身高高.Galton把這種后代的身高向中間值靠近的趨勢稱為“回歸現(xiàn)象”.后來,人們把由一個變量的變化去推測另一個變量的變化的方法稱為回歸分析.
②回歸系數(shù)的推導過程:
,
把上式看
13、成的二次函數(shù),的系數(shù),
因此當時取最小值.
同理,把的展開式按的降冪排列,看成的二次函數(shù),當時取最小值.
解得:,,
其中,是樣本平均數(shù).
9. 對相關系數(shù)進行相關性檢驗的步驟:
①提出統(tǒng)計假設:變量不具有線性相關關系;
②如果以的把握作出推斷,那么可以根據(jù)與(是樣本容量)在相關性檢驗的臨界值表中查出一個的臨界值(其中稱為檢驗水平);
③計算樣本相關系數(shù);
④作出統(tǒng)計推斷:若,則否定,表明有的把握認為變量與之間具有線性相關關系;若,則沒有理由拒絕,即就目前數(shù)據(jù)而言,沒有充分理由認為變量與之間具有線性相關關系.
說明:
⑴對相關系數(shù)進行顯著性檢驗,一般取檢驗水平,即可靠程度
14、為.
⑵這里的指的是線性相關系數(shù),的絕對值很小,只是說明線性相關程度低,不一定不相關,可能是非線性相關的某種關系.
⑶這里的是對抽樣數(shù)據(jù)而言的.有時即使,兩者也不一定是線性相關的.故在統(tǒng)計分析時,不能就數(shù)據(jù)論數(shù)據(jù),要結合實際情況進行合理解釋.
典例分析
題型一.數(shù)字特征的計算
【例1】 (2020海淀二模)
某校高中年級開設了豐富多彩的校本課程,甲、乙兩班各隨機抽取了5名學生的學分,用莖葉圖表示(如右圖).,分別表示甲、乙兩班各自5名學生學分的標準差,則 .(填“”、“”或“”)
【例2】 (2020崇文二模)
甲、乙、丙三名射擊運動員在
15、某次測試中各射擊20次,三人的測試成績?nèi)缦卤?
甲的成績
環(huán)數(shù)
7
8
9
10
頻數(shù)
5
5
5
5
乙的成績
環(huán)數(shù)
7
8
9
10
頻數(shù)
6
4
4
6
丙的成績
環(huán)數(shù)
7
8
9
10
頻數(shù)
4
6
6
4
分別表示甲、乙、丙三名運動員這次測試成績的平均數(shù),則的大小關系為??? ????? ;分別表示甲、乙、丙三名運動員這次測試成績的標準差,則的大小關系為??? ????? .
【例3】 個正數(shù)的平方和是,方差是,那么平均數(shù)為( )
A. B. C.
16、 D.
【例4】 若個數(shù)的平均數(shù)是,個數(shù)的平均數(shù)是,則這個數(shù)的平均數(shù)是( )
A. B. C. D.
【例5】 已知一組數(shù)據(jù)的方差是,
且,則這組數(shù)據(jù)的平均數(shù)__________.
【例6】 求下列各組數(shù)據(jù)的方差與標準差(精確到),并分析由這些結果可得出什么更一般的結論.
⑴;
⑵;
⑶
【例7】 (2020上海18)
在發(fā)生某公共衛(wèi)生事件期間,有專業(yè)機構認為該事件在一段時間內(nèi)沒有發(fā)生大規(guī)模群體感染的標志為“連續(xù)天,每天新增疑似病例不超過人”.根據(jù)過去天甲、乙、丙、丁四地新增疑似病例數(shù)據(jù),一定符
17、合該標志的是( )
A.甲地:總體均為,中位數(shù)為 B.乙地:總體均值為,總體方差大于
C.丙地:中位數(shù)為,眾數(shù)為 D.丁地:總體均值為,總體方差為
【例8】 (2020四川卷文)
設矩形的長為,寬為,其比滿足,這種矩形給人以美感,稱為黃金矩形.黃金矩形常應用于工藝品設計中.下面是某工藝品廠隨機抽取兩個批次的初加工矩形寬度與長度的比值樣本:
甲批次:
乙批次:
根據(jù)上述兩個樣本來估計兩個批次的總體平均數(shù),與標準值比較,正確結論是
A.甲批次的總體平均數(shù)與標準值更接近
B.乙批次的總體平均數(shù)與標
18、準值更接近
C.兩個批次總體平均數(shù)與標準值接近程度相同
D.兩個批次總體平均數(shù)與標準值接近程度不能確定
【例9】 (2020上海9)
已知總體的各個體的值由小到大依次為,且總體的中位數(shù)為,若要使該總體的方差最小,則、的取值分別是 .
【例10】 (2020山東9)
從某項綜合能力測試中抽取人的成績,統(tǒng)計如表,則這人成績的標準差為( )
分數(shù)
人數(shù)
A. B. C.3 D.
【例11】 兩臺機床同時生產(chǎn)直徑為的零件,為了檢驗產(chǎn)品質量,質量檢驗員從兩臺機床的產(chǎn)品中各抽出件進行測量,結果如下:
機床甲
機床乙
如果你是質量檢驗員,在得到上述數(shù)據(jù)后,你將通過怎樣的運算來判斷哪臺機床生產(chǎn)的零件質量更符合要求?