《一元線性回歸原理【教育類別】》由會員分享,可在線閱讀,更多相關(guān)《一元線性回歸原理【教育類別】(22頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、統(tǒng)計思維回歸的直觀理解與原理:一元線性回歸1培訓(xùn)類(一)問題的提出(一)問題的提出例例1 1 假定需要研究化肥施用量與糧食產(chǎn)量的關(guān)系,以便準(zhǔn)確地定出化肥施用量的單位變化如何影響糧食產(chǎn)量的平均單位變化,進而確定合理的化肥施用量。表表1 化肥施用量與糧食產(chǎn)量化肥施用量與糧食產(chǎn)量化肥施用量x(萬噸)4541.054541.053637.872287.493056.894883.73779.34021.09糧食產(chǎn)量y(萬噸)48526.6948526.6945110.8740753.7943824.5850890.1146370.8846577.91化肥施用量x(萬噸)2989.062989.0630
2、21.93953.973212.133804.761598.281998.56糧食產(chǎn)量y(萬噸)42947.4442947.4441673.2147244.3443061.5347336.7837127.8939515.07化肥施用量x(萬噸)3710.563710.563269.031017.121864.232797.241034.09糧食產(chǎn)量y(萬噸)46598.0446598.0444020.9234866.9137184.1441864.7733717.782培訓(xùn)類圖圖1 化肥施用量與糧食產(chǎn)量的散點圖化肥施用量與糧食產(chǎn)量的散點圖3培訓(xùn)類上述變量間關(guān)系的特點:1.變量間關(guān)系不能用函數(shù)關(guān)
3、系精確表達2.一個變量的取值不能由另一個變量唯一確定3.當(dāng)變量 x 取某個值時,變量 y 的取值可能有幾個4.各觀測點分布在直線周圍 4培訓(xùn)類問題問題兩個變量之間有著密切的關(guān)系,但它們之間密切的程度并不能由一個變量唯一確定另一個變量,即它們間的關(guān)系是一種非確定性的關(guān)系。它們之間到底有什么樣的關(guān)系呢?u例1中由20組數(shù)據(jù),糧食產(chǎn)量與化肥施用量的關(guān)系式 是如何得到的?30208.9134.217yx5培訓(xùn)類解決方案運用模型來擬合這些數(shù)據(jù)點。觀測值分解成兩部分:y=b b0 0 b b1 1 x e el一元線性回歸模型觀測項觀測項 =+結(jié)構(gòu)項結(jié)構(gòu)項隨機項隨機項 =+6培訓(xùn)類(二)一元線性回歸模型1
4、.描述因變量描述因變量 y 如何依賴于自變量如何依賴于自變量 x 和誤差項和誤差項e e 的的方程稱為方程稱為回歸模型回歸模型2.一元線性回歸模型可表示為一元線性回歸模型可表示為 y=b b0 0 b b1 1 x e ey 是是 x 的線性函數(shù)的線性函數(shù)(部分部分)加上誤差項加上誤差項線性部分反映了由于線性部分反映了由于 x 的變化而引起的的變化而引起的 y 的變化的變化誤差項誤差項 e e 是隨機變量是隨機變量反映了除反映了除 x 和和 y 之間的線性關(guān)系之外的隨機因素對之間的線性關(guān)系之外的隨機因素對 y 的影響的影響是不能由是不能由 x 和和 y 之間之間的線性關(guān)系所解釋的變異性的線性關(guān)
5、系所解釋的變異性b b0 和和 b b1 稱為模型的稱為模型的參數(shù)參數(shù)7培訓(xùn)類一元線性回歸模型 (基本假定)1.因變量因變量x與自變量與自變量y之間具有線性關(guān)系之間具有線性關(guān)系2.在重復(fù)抽樣中,自變量在重復(fù)抽樣中,自變量x的取值是固定的,即假定的取值是固定的,即假定x是是非隨機的非隨機的3.誤差項誤差項是一個期望值為是一個期望值為0的隨機變量,即的隨機變量,即E()=0。對。對于于一個一個給定的給定的 x 值,值,y 的期望值為的期望值為E(y)=b b 0+b b 1 x4.對于所有的對于所有的 x 值,值,的方差的方差2 都相同都相同5.誤差項誤差項是一個服從正態(tài)分布的隨機變量,且是一個服
6、從正態(tài)分布的隨機變量,且相互獨立相互獨立。即即N(0,2)獨立性意味著對于一個特定的獨立性意味著對于一個特定的 x 值,它所對應(yīng)的值,它所對應(yīng)的與其他與其他 x 值所對應(yīng)的值所對應(yīng)的不相關(guān)不相關(guān)對于一個特定的對于一個特定的 x 值,它所對應(yīng)的值,它所對應(yīng)的 y 值與其他值與其他 x 所對應(yīng)的所對應(yīng)的 y 值也不相關(guān)值也不相關(guān)8培訓(xùn)類回歸方程(regression equation)1.描述描述 y 的平均值或期望值如何依賴于的平均值或期望值如何依賴于 x 的方的方程稱為程稱為回歸方程回歸方程2.一元線性回歸方程的形式如下一元線性回歸方程的形式如下 E(y)=b b0+b b1 x方程的圖示是一
7、條直線,也稱為方程的圖示是一條直線,也稱為直線回歸方程直線回歸方程b b0 0是回歸直線在是回歸直線在 y 軸上的截距,軸上的截距,是當(dāng)是當(dāng) x=0 時時 y 的期望值的期望值b b1是直線的斜率,稱為回歸系數(shù),是直線的斜率,稱為回歸系數(shù),表示當(dāng)表示當(dāng) x 每變動一個單位時,每變動一個單位時,y 的平均變動值的平均變動值9培訓(xùn)類xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)問題:回歸直線如何確定?01 yxbb10培訓(xùn)類Karl Gauss的最小化圖目標(biāo):找一條直線盡可能的擬合這目標(biāo):找一條直線盡可能的擬合這n個樣本點。個樣本點。11培訓(xùn)類(三)最小二乘估計(least-squa
8、res estimation)1.德國科學(xué)家德國科學(xué)家Karl Gauss(17771855)提出用提出用最小化圖中垂直方向的誤差平方和最小化圖中垂直方向的誤差平方和來估計參數(shù)來估計參數(shù) 2.使因變量的觀察值與估計值之間的誤差平方和使因變量的觀察值與估計值之間的誤差平方和達到最小來求得達到最小來求得 和和 的方法。即的方法。即3.用最小二乘法擬合的直線來代表用最小二乘法擬合的直線來代表x與與y之間之間的的關(guān)系與實際數(shù)據(jù)的誤差比其他任何直線都小關(guān)系與實際數(shù)據(jù)的誤差比其他任何直線都小0b1b12培訓(xùn)類問題如何估計 使得 最小0122010101,11(,)()min()nniiiiiiQyxyxb
9、bbbbbbb01bb、220111()()nniiiiiiyyyxbb13培訓(xùn)類解決方法根據(jù)微積分法求極值的原理,通過求偏導(dǎo)數(shù)并命其為0而得到:這組方程稱為正規(guī)方程組經(jīng)過整理,可得?0100100111112()02()0niiiniiiiQyxQyx xbbbbbbbbbb 14培訓(xùn)類其中,u記u可以簡寫為011121()()()niiiniiyxxxyyxxbbb11niixxn,11niiyyn經(jīng)過整理,可得22211()()nnxxiiiiLxxxn x,11()()nnxyiiiiiiLxxyyx ynx y011/xyxxyxLLbbb15培訓(xùn)類例例1 1 假定需要研究化肥施用量
10、與糧食產(chǎn)量的關(guān)系,以便準(zhǔn)確地定出化肥施用量的單位變化如何影響糧食產(chǎn)量的平均單位變化,進而確定合理的化肥施用量。表表1糧食產(chǎn)量與化肥施用量糧食產(chǎn)量與化肥施用量化肥施用量x(萬噸)4541.054541.053637.872287.493056.894883.73779.34021.09糧食產(chǎn)量y(萬噸)48526.6948526.6945110.8740753.7943824.5850890.1146370.8846577.91化肥施用量x(萬噸)2989.062989.063021.93953.973212.133804.761598.281998.56糧食產(chǎn)量y(萬噸)42947.44429
11、47.4441673.2147244.3443061.5347336.7837127.8939515.07化肥施用量x(萬噸)3710.563710.563269.031017.121864.232797.241034.09糧食產(chǎn)量y(萬噸)46598.0446598.0444020.9234866.9137184.1441864.7733717.78最小二乘法求解回歸方程實例最小二乘法求解回歸方程實例16培訓(xùn)類解:60478.32859213.653023.916,42960.68252020 xy2212()20563676920(3023.916)22755409.55nxxiiLxn
12、x1 269414883220 3023.916 42960.682595958928.85nxyiiiLx ynx y 011/xyxxyxLLbbb01142960.68254.217 3023.91630208.913/95958928.85/227554094.217xyxxyxLLbbb17培訓(xùn)類回歸方程為:30208.9134.217yx01142960.68254.217 3023.91630208.913/95958928.85/227554094.217xyxxyxLLbbb18培訓(xùn)類 直觀來看,回歸直線與20個樣本數(shù)據(jù)點都很接近,說明回歸直線對數(shù)據(jù)的擬合效果是好的。圖圖1
13、化肥施用量與糧食產(chǎn)量的散點圖化肥施用量與糧食產(chǎn)量的散點圖19培訓(xùn)類最小二乘估計的軟件實現(xiàn)、輸出結(jié)果最小二乘估計的軟件實現(xiàn)、輸出結(jié)果30208.9134.217yx回歸方程為:20培訓(xùn)類小結(jié):估計的回歸方程小結(jié):估計的回歸方程3.一元線性回歸中估計的回歸方程為一元線性回歸中估計的回歸方程為2.用用樣本統(tǒng)計量樣本統(tǒng)計量 和和 代替回歸方程中的未知參代替回歸方程中的未知參數(shù)數(shù) 和和 ,就得到了,就得到了估計的回歸方程估計的回歸方程1.總體總體回歸參數(shù)回歸參數(shù) 和和 是未知的,必須利用樣本數(shù)是未知的,必須利用樣本數(shù)據(jù)去估計據(jù)去估計其中:其中:是估計的回歸直線在是估計的回歸直線在 y 軸上的截距,軸上的
14、截距,是直線的斜率,是直線的斜率,它表示對于一個給定的它表示對于一個給定的 x 的值,的值,是是 y 的估計值,也表示的估計值,也表示 x 每變每變動一個單位時,動一個單位時,y 的平均變動值的平均變動值.21培訓(xùn)類“回歸”名稱的由來十九世紀(jì),英國生物學(xué)家兼統(tǒng)計學(xué)家高爾頓研究父母身高與其子女身高的遺傳問題時,觀察了1078對夫婦,以每對夫婦的平均身高作為x(單位:英寸,1英寸=2.54厘米),取他們的一個成年兒子的身高作為y,繪制散點圖發(fā)現(xiàn)趨勢近乎一條直線,計算出的直線方程為:這種趨勢表明子代的身高向中心回歸向中心回歸,才使得人類的身高在一定時間內(nèi)相對穩(wěn)定,沒有出現(xiàn)兩極分化現(xiàn)象。其后研究變量x和變量y的統(tǒng)計關(guān)系時借用這個名詞。33.730.516yx22培訓(xùn)類