SPSS統(tǒng)計分析第六章回歸分析.ppt

上傳人：w****2 文檔編號：16566662 上傳時間：2020-10-13 格式：PPT 頁數(shù)：47 大小：895.50KB

收藏版權申訴舉報下載

第1頁 / 共47頁

第2頁 / 共47頁

第3頁 / 共47頁

下載文檔到電腦，查找使用更方便

9.9 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《SPSS統(tǒng)計分析第六章回歸分析.ppt》由會員分享，可在線閱讀，更多相關《SPSS統(tǒng)計分析第六章回歸分析.ppt（47頁珍藏版）》請在裝配圖網(wǎng)上搜索。

1、第六章回歸分析變量之間的聯(lián)系確定型的關系：指某一個或某幾個現(xiàn)象的變動必然會引起另一個現(xiàn)象確定的變動，他們之間的關系可以使用數(shù)學函數(shù)式確切地表達出來，即 y=f(x)。當知道 x的數(shù)值時，就可以計算出確切的 y值來。如圓的周長與半徑的關系：周長 =2r。非確定關系：例如，在發(fā)育階段，隨年齡的增長，人的身高會增加。但不能根據(jù)年齡找到確定的身高，即不能得出 11歲兒童身高一定就是 1.40米公分。年齡與身高的關系不能用一般的函數(shù)關系來表達。研究變量之間既存在又不確定的相互關系及其密切程度的分析稱為相關分析。回歸分析如果把其中的一些因素作為自變量，而另一些隨

2、自變量的變化而變化的變量作為因變量，研究他們之間的非確定因果關系，這種分析就稱為回歸分析。回歸分析是研究一個自變量或多個自變量與一個因變量之間是否存在某種線性關系或非線性關系的一種統(tǒng)計學方法。線性回歸分析；曲線回歸分析；二維 Logistic回歸分析；多維 Logistic回歸分析；概率單位回歸分析；非線性回歸分析；權重估計分析；二階段最小二乘分析；最優(yōu)編碼回歸。一、線性回歸（一）一元線性回歸方程直線回歸分析的任務就是根據(jù)若干個觀測（ xi， yi） i=1 n 找出描述兩個變量 x、 y之間關系的直線回歸方程 y=a+bx。 y

3、是變量 y的估計值。求直線回歸方程 y=a+bx,實際上是用回歸直線擬合散點圖中的各觀測點。常用的方法是最小二乘法。也就是使該直線與各點的縱向垂直距離最小。即使實測值 y與回歸直線 y之差的平方和 (y-y)2達到最小。 (y-y)2 也稱為剩余（殘差）平方和。因此求回歸方程 y=a+bx的問題，歸根到底就是求 (y-y)2取得最小值時 a和 b的問題。 a稱為截距， b為回歸直線的斜率，也稱回歸系數(shù)。 1、一元線性回歸方程的適用條件線形趨勢：自變量與因變量的關系是線形的，如果不是，則不能采用線性回歸來分析。獨立性：可表述為因變量 y的取值相互獨立，它們之間沒有聯(lián)系

4、。反映到模型中，實際上就是要求殘差間相互獨立，不存在自相關。正態(tài)性：自變量 x的任何一個線形組合，因變量 y均服從正態(tài)分布，反映到模型中，實際上就是要求隨機誤差項 i服從正態(tài)分布。方差齊性：自變量的任何一個線形組合，因變量 y的方差均齊性，實質(zhì)就是要求殘差的方差齊。 2、一元線性回歸方程的檢驗檢驗的假設是總體回歸系數(shù)為 0。另外要檢驗回歸方程對因變量的預測效果如何。（ 1）回歸系數(shù)的顯著性檢驗對斜率的檢驗，假設是：總體回歸系數(shù)為 0。檢驗該假設的 t值計算公式是； t=b/SEb,其中 SEb是回歸系數(shù)的標準誤。對截距的檢驗，假設是：總體回歸方程

5、截距 a=0。檢驗該假設的 t值計算公式是： t=a/SEa,其中 SEa是截距的標準誤。（ 2） R2判定系數(shù) 在判定一個線性回歸直線的擬合度的好壞時， R2系數(shù)是一個重要的判定指標。 R2判定系數(shù)等于回歸平方和在總平方和中所占的比率，即 R2體現(xiàn)了回歸模型所能解釋的因變量變異性的百分比。如果 R2=0.775，則說明變量 y 的變異中有 77.5是由變量 X引起的。當 R2 1時，表示所有的觀測點全部落在回歸直線上。當 R2=0時，表示自變量與因變量無線性關系。為了盡可能準確的反應模型的擬合度， SPSS輸出中的 Adjusted R

6、 Square是消除了自變量個數(shù)影響的 R2 的修正值。 )( )( 2 2 2 yy yyR i i （ 3）方差分析體現(xiàn)因變量觀測值與均值之間的差異的偏差平方和 SSt是由兩個部分組成： SSt=SSr SSe SSr：回歸平方和，反應了自變量 X的重要程度； SSe ：殘差平方和，它反應了實驗誤差以及其他意外因素對實驗結果的影響。這兩部分除以各自的自由度，得到它們的均方。統(tǒng)計量 F=回歸均方殘差均方。當 F值很大時，拒絕接受 b=0的假設。（ 4） Durbin Watson檢驗在對回歸模型的診斷中，有一個非常重要的回歸模型假設需要診斷，那就是回

7、歸模型中的誤差項的獨立性。如果誤差項不獨立，那么對回歸模型的任何估計與假設所作出的結論都是不可靠的。其參數(shù)稱為 DW或 D。 D的取值范圍是 0 D 4，統(tǒng)計學意義如下：當殘差與自變量互為獨立時 D2；當相鄰兩點的殘差為正相關時， D2 （ 5）殘差圖示法在直角坐標系中，以預測值 y為橫軸，以 y與 y之間的誤差 et為縱軸 (或?qū)W生化殘差與擬和值或一個自變量），繪制殘差的散點圖。如果散點呈現(xiàn)出明顯的規(guī)律性則 ,認為存在自相關性或者非線性或者非常數(shù)方差的問題。（二）多元線性回歸多元線性回歸：根據(jù) 多個自變量的最優(yōu)組合建立回歸方程來預測因變量的回歸分析

8、稱為多元回歸分析。多元回歸分析的模型為： y=b0+b1x1+b2x2+ +bnxn 其中 y為根據(jù)所有自變量 x計算出的估計值 , b0為常數(shù)項 , b1、 b2 bn稱為 y對應于 x1、 x2 xn的偏回歸系數(shù)。偏回歸系數(shù)表示假設在其他所有自變量不變的情況下，某一個自變量變化引起因變量變化的比率。多元線性回歸模型也必須滿足一元線性回歸方程中所述的假設理論。 2.多元線性回歸分析中的參數(shù) （ l）復相關系數(shù) R 復相關系數(shù)表示因變量 xi 與他的自變量 y之間線性相關密切程度的指標，復相關系數(shù)使用字母 R表示。復相關系數(shù)的取值范圍在 0 1之間。其

9、值越接近 1表示其線性關系越強，越接近 0表示線性關系越差。（ 2） R2判定系數(shù)與經(jīng)調(diào)整的判定系數(shù) 與一元回歸方程相同，在多元回歸中也使用判定系數(shù) R2來解釋回歸模型中自變量的變異在因變量變異中所占比率。但是，判定系數(shù)的值隨著進入回歸方程的自變量的個數(shù)（或樣本容量的大小 n）的增加而增大。因此，為了消除自變量的個數(shù)以及樣本量的大小對判定系數(shù) 的影響，引進了經(jīng)調(diào)整的判定系數(shù)（ Adjusted R Square）。 )1( )1(1 )( )( 2 2 2 ni kni yy yyA d j u s t e d R K為自變量的個數(shù)， n為觀測量數(shù)目。自變

10、量的個數(shù) 大于時，其值小于判定系數(shù)。自變量個數(shù)越多，與判定系數(shù)的差值越大。（ 3）零階相關系數(shù)、部分相關與偏相關系數(shù) 零階相關系數(shù)（ Zero Order）計算所有自變量與因變量之間的簡單相關系數(shù)。部分相關（ Part Correlation）表示：在排除了其他自變量對 xi的影響后，當一個自變量進入回歸方程模型后，復相關系數(shù)的平均增加量。偏相關系數(shù)（ Partial Correlation ）表示：在排除了其他變量的影響后；自變量 Xi與因變量 y之間的相關程度。部分相關系數(shù)小于偏相關系數(shù)。偏相關系數(shù)也可以用來作為篩選自變量的指標，即通過比較偏相關系數(shù)的大小

11、判別哪些變量對因變量具有較大的影響力。 3、多元線性回歸分析的檢驗建立了多元回歸方程后，需要進行顯著性檢驗，以確認建立的數(shù)學模型是否很好的擬和了原始數(shù)據(jù)，即該回歸方程是否有效。利用殘差分析，確定回歸方程是否違反了假設理論。對各自變量進行檢驗。其假設是總體的回歸方程自變量系數(shù)或常數(shù)項為 0。以便在回歸方程中保留對因變量 y值預測更有效的自變量。以便確定數(shù)學模型是否有效。（ l）方差分析多元回歸方程也采用方差分析方法對回歸方程進行檢驗，檢驗的 H0假設是總體的回歸系數(shù)均為 0（無效假設）， H1假設是總體的回歸系數(shù)不全為 0（備選假設）。它是對整個回歸方程

12、的顯著性檢驗。使用統(tǒng) 計量 F進行檢驗。原理與一元回歸的方程分析原理相同。 )1( )( )( MS 2 i 2 i pnyy yy F MS 殘差回歸（ 2）偏回歸系數(shù)與常數(shù)項的檢驗在多元回歸分析中，可能有的自變量對因變量的影響很強，而有的影響很弱，甚至完全沒有作用，這樣就有必要對自變量進行選擇，使回歸方程中只包含對因變量有統(tǒng)計學意義的自變量；檢驗的假設是：各自變量回歸系數(shù)為 0，常數(shù) 項為 0。它使用的統(tǒng)計量是 t； t=偏回歸系數(shù) /偏回歸系數(shù)的標準誤（ 3）方差齊性檢驗方差齊性是指殘差的分布是常數(shù)，與預測變量或因變量無關。即殘差應隨機的

13、分布在一條穿過 0點的水平直線的兩側。在實際應用中，一般是繪制因變量預測值與學生殘差的散點圖。在線性回歸 Plots對話框中的源變量表中 , 選擇 SRESID（學生氏殘差）做 Y軸；選擇 ZPRED（標準化預測值）做 X軸就可以在執(zhí) 行后的輸出信息中顯示檢驗方差齊性的散點圖。共線性診斷在回歸方程中，雖然各自變量對因變量都是有意義的，但某些自變量彼此相關，即存在共線性的問題。給評價自變量的貢獻率帶來困難。因此，需要對回歸方程中的變量進行共線性診斷；并且確定它們對參數(shù)估計的影響。當一組自變量精確共線性時，必須刪除引起共線性的一個和多個自變量，否則不存在系數(shù)唯一的

14、最小二乘估計。因為刪除的自變量并不包含任何多余的信息，所以得出的回歸方程并沒有失去什么。當共線性為近似時，一般是將引起共線性的自變量刪除，但需要掌握的原則是：務必使丟失的信息最少。進行共線性論斷常用的參數(shù)有（ l）容許度（ Tolerance）在只有兩個自變量的情況下，自變量 X1與 X2之間共線性體現(xiàn)在兩變量間相關系數(shù) r12上。精確共線性時對應 r122 1，當它們之間不存在共線性時 r122 0。 r122越接近于 1，共線性越強。多于兩個自變量的情況， Xi與其他自變量 X之間的復相關系數(shù)的平方體現(xiàn)其共線性，稱它為 Ri2。它的值越接近 1，說明自變

15、量之間的共線性程度越大。容許度定義為 Toli l一 Ri2 當容許度的值較小時，自變量 Xi 與其他自變量 X之間存在共線性。使用容許度作為共線性量度指標的條件是，觀測量應大致近似于正態(tài)分布，但在大多數(shù)情況下觀測量的正態(tài)分布的假設是不被接受的。而且，由于容許度中相關系數(shù)對極端值極為敏感 , 所以用它來作為共線性的量度指標是不適合的。（ 2）方差膨脹因子（ VIF）方差膨脹因于（ VIF）定義為 VIF 1/(l一 Ri2 )，即它是容許度的倒數(shù)。它的值越大，自變量之間存在共線性的可能性越大。（ 3）條件參數(shù)（ Condition Index）條件參

16、數(shù)是在計算特征值時產(chǎn)生的一個統(tǒng)計量，其具體含義尚不大清楚，但己經(jīng)提出一些原則：其數(shù)值越大，說明自變量之間的共線性的可能性越大；有些學者提議，條件參數(shù) 30時認為有共線性存在的可能性，但理論上并沒有得到證明。特征值（ Eigenvalue）如果很小，就應該懷疑共線性的存在。例題 Data09-03美國某銀行雇員情況調(diào)查，建立一個使用初始工資（ salbegin）、工作經(jīng)驗（ prevexp）、工作時間（ jobtime）、工作類型（ jobcat）、受教育年限（ educ）預測當前工資（ salary）的回歸方程。 1變量間線性關系的初步探索在獲得數(shù)據(jù)后

17、，應將所得到的數(shù)據(jù)繪圖，探索因變量隨自變量變化的趨勢。以便確定數(shù)據(jù)是否適合線性模型。如果數(shù)據(jù)之間大致呈線性關系，可以建立線性回歸方程。如果圖中數(shù)據(jù)不呈線性分布，那么還可以根據(jù)其他回歸方程模型的觀測量分布圖形特點以及建立各方程后所得的判定系數(shù) R2進行比較后確定一種最佳模型。見曲線擬合及非線性回歸。通過散點圖還可以發(fā)現(xiàn)奇異值，如圖中畫圈的觀測值要認真檢查數(shù)據(jù)的合理性。 2、選擇自變量和因變量 3、選擇回歸分析方法 Enter選項，強行進入法，即所選擇的自變量全部進人回歸模型，該選項是默認方式。 Remove選項，消去法，建立的回歸方程時，根據(jù)設定的條件剔除

18、部分自變量。 Forward選項，向前選擇法，根據(jù)在 option對話框中所設定的判據(jù)，從無自變量開始。在擬合過程中，對被選擇的自變量進行方差分析，每次加入一個 F值最大的變量，直至所有符合判據(jù)的變量都進入模型為止。第一個引入歸模型的變量應該與因變量間相關系數(shù)絕對值最大。 Backward選項，向后剔除法，根據(jù)在 option 對話框中所設定的判據(jù)，先建立全模型，然后根據(jù)設置的判據(jù)，每次剔除一個使方差分析中的 F值最小的自變量，直到回歸方程中不再含有不符合判據(jù)的自變量為止。 Stepwise選項，逐步進入法，它是向前選擇變量法與向后剔除變

19、量方法的結合。根據(jù)在 option對話框中所設定的判據(jù)，首先根據(jù)方差分析結果選擇符合判據(jù)的自變量且對因變量貢獻最大的進入回歸方程。根據(jù)向前選擇變量法則選入變量。然后根據(jù)向后剔除法，將模型中 F 值最小的且符合剔除判據(jù)的變量剔除出模型，重復進行直到回歸方程中的自變量均符合進入模型的判據(jù)，模型外的自變量都不符合進入模型的判據(jù)為止。 4、選擇參與回歸的觀測量根據(jù)變量值選擇參與回歸分析的觀測量，將作為參照的變量進入 Selection Variable框中，單擊 Rule按鈕。打開 Set Rule對話框。 5、 Statistics按鈕 Estimates：輸

20、出回歸系數(shù) B、 B的標準誤、標準回歸系數(shù) beta、 B的 t值及 t值的雙側檢驗的顯著性水平； Confidence interval：輸出每一個非標準化回歸系數(shù) 95的可信區(qū)間； Covariance maxtrix：輸出非標準化回歸系數(shù)的協(xié)方差矩陣、各變量的相關系數(shù)矩陣； Model fit（模型擬合）：輸出引入模型與從模型中剔除的變量，提供復相關系數(shù) R， R2及其修正值，估計值的標準誤，方差分析表； R squared change：表示回歸方差中引入或剔除一個自變量后的 R2變化量； Descriptives：輸出合法觀測量的數(shù)目、變量的平均值、標準差、相關

21、系數(shù)矩陣和單側檢驗顯著性水平 Part and partial correlations：輸出部分相關系數(shù)、偏相關系數(shù)、零階相關系數(shù)； Collinearity diagnostics：輸出方差膨脹因子及特征值； Durbin Watson：輸出 Durbin Watson統(tǒng)計量及可能的奇異值； Casewise diagnostics：輸出觀測量檢測表； 6、 plot按鈕 Dependent：因變量； ZPRED:標準化預測值 ZRESID:標準化殘差 DRESID:剔除殘差 ADJPRED:修正后預測值 SRESID:學生化殘差 SDRESID：學生化剔除殘差

22、 Histogrom：輸出帶有正態(tài)曲線的標準化殘差的直方圖； Normal probability plot：殘差的正態(tài)概率圖，檢查殘差的正態(tài)性； Produce all partial plots：輸出一個自變量殘差相對于因變量殘差的散布圖。 Option按鈕 Stepping method criteria(設置變量引入模型或從模型中剔除的判據(jù) ) Use probability of F：采用 F 概率作為變量引入模型或從模型中剔除的判據(jù)。 Entry： 0.05當一個變量的 sigT值 0.05時該變量被引入方程； Removal： 0.10當一個變量

23、的 sigT值 0.10時該變量從回歸方程剔除。 Use F values（采用 F值作為變量引入模型或從模型中剔除的判據(jù)） Entry： 0.05當一個變量的 sigF值 3.84時該變量被引入方程； Removal： 0.10當一個變量的 sigF值 2.71時該變量從回歸方程剔除。練習題為研究男性高血壓患者血壓與年齡、身高、體重等變量間的關系，隨機測量了 32名 40歲以上的男性患者的血壓、年齡、體重以及吸煙史（過去吸煙或現(xiàn)在吸煙設置為 1，不吸煙為 0）。試建立回歸方程。 Mreg2.sav 二、曲線回歸分析線性回歸可以滿足許多數(shù)據(jù)分析，然而線性

24、回歸不會對所有的問題都適用，有時因變量與自變量是通過一個已知或未知的非線性函數(shù)關系相聯(lián)系。盡管有可能通過一些函數(shù)的轉(zhuǎn)換方法，在一定范圍內(nèi)將它們轉(zhuǎn)變?yōu)榫€性關系，但這種轉(zhuǎn)換有可能導致更為復雜的計算或數(shù)據(jù)失真。在很多情況下有兩個相關的變量，用戶希望利用其中的一個變量對另一個變量進行預測，此時可采用的方法也很多；從簡單的直線模型到復雜的時間序列模型。如果不能馬上根據(jù)觀測量數(shù)據(jù)確定一種最佳模型，可以利用曲線估計在眾多的回歸模型中來建立一個簡單而又比較適合的模型。例題汽車每加侖汽油行駛的里程數(shù)（ mpg）與汽車重量（ weight）建立回歸方程。 Data13

25、 01 線形回歸方程 Y=b0+b1X 二次回歸方程 Y=b0+b1X+b2X2 復合曲線回歸方程 Y=b0(b1X) 等比級數(shù)曲線回歸方程對數(shù)回歸方程三次回歸方程 Y=b0+b1X+b2X2+b3X3 三、 Logistic回歸分析多元線性回歸要求 Y是呈正態(tài)分布的連續(xù)型隨機變量。難以處理因變量為二值變量的情況。在醫(yī)學中，存在很多二值化的狀態(tài)，比如生存與死亡、感染與不感染、有效與無效、患病與不患病等等。這時，我們往往要分析生存與死亡或感染與不感染與哪些因素有關。而這些因素（自變量）可能是二值數(shù)據(jù)或等級分組資料或是計量資料，此時，可以使用 logistic 回歸來分

26、析因變量（二值變量）與自變量的關系。 logistic回歸的基本概念：設 P表示某事件發(fā)生的概率，取值范圍為 0 1， 1 P 是該事件不發(fā)生的概率，將比值 P/（ 1 P）取自然對數(shù)得 ln(P/1 P)，即對 P作 logit轉(zhuǎn)換，記為 logitP，則 logitP的取值范圍在 - ， + 之間。以 logitP為因變量，建立線形回歸方程： logitP =b0+bixi p=exp（ b0 +bixi） /1+ exp (b0 +bixi) OR=e=exp 可見： b0表示一個不接觸危險因素（自變量取值全為 0時）的個體發(fā)?。ㄋ劳龌蚋腥荆┑?比值的對數(shù)。

27、 b0是常數(shù)。 bi 表示危險因素改變一個單位時，比值的對數(shù)的改變量。在實際比較 xi對比值的對數(shù)影響時，應使用標準化的系數(shù)，以克服自變量不同量綱的影響。 bi稱為 logistic回歸系數(shù)。數(shù)據(jù)背景（ data13-02）北京醫(yī)科大學附屬人民醫(yī)院內(nèi)分泌科盧紋凱教授課題。頸總動脈中層厚度 imt0.8mm或有斑塊定義為動脈硬化，因變量 type值為 1；非硬化 imt 0.8mm且無斑塊，因變量 type值為 0。糖尿病患者 123例數(shù)據(jù)。研究哪些指標可以判斷糖尿病患者是否動脈硬化。自變量 AGE年齡、 ALB尿白蛋白、 BMI體重指數(shù)、 ISI胰島素敏感指數(shù)、 SBP收縮壓、 TG甘油三脂、 CHO膽固醇、 DURA糖尿病程。其中尿白蛋白、甘油三脂、膽固醇三項生化指標在回歸估計過程中均使用他們的對數(shù)變量： ALBLN、 TGLN、 CHOLN。

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

關于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

欧美精品一二区,性欧美一级,国产免费一区成人漫画,草久久久久,欧美性猛交ⅹxxx乱大交免费,欧美精品另类,香蕉视频免费播放

SPSS統(tǒng)計分析第六章回歸分析.ppt

最新文檔

相關資源

相關搜索

欧美精品一二区,性欧美一级,国产免费一区成人漫画,草久久久久,欧美性猛交ⅹxxx乱大交免费,欧美精品另类,香蕉视频免费播放

SPSS統(tǒng)計分析 第六章 回歸分析.ppt

最新文檔

相關資源

相關搜索

SPSS統(tǒng)計分析第六章回歸分析.ppt