SAS를 이용한 단순회귀분석

2014. 8. 24. 16:36Data Analysis

예제 ) 백화점을 방문하는 고객수(X)와 매출액(Y) 사이의 관계를 분석해보자 


1) 고객수와 매출액에 대한 산점도


PROC PLOT DATA=INPUT ;

PLOT 매출액(Y)*고객수(X) / VPOS=30 HPOS=50;

RUN;


2) 단순회귀모형으로 회귀식 추정


PROC REG DATA=INPUT;

MODEL Y=X;

OUTPUT OUT=RESULT P=predict R=residual RSTUDENT=rstudent;

RUN;


결과값 해석

- model, 종속변수 출력됨

- 분산분석 출력됨

- 자유도DF, 제곱합Sum of Squares, 평균제곱Mean Square, F값, p값

-Proc>F값은 p값을 의미하며,p값이 유의수준보다 작으면 '가정된 회귀모형이 주어진 자료에 잘 적합한다'

-Root MSE : 모집단의 표준편차의 추정치

-Dep Mean : 종속변수의 평균값

-C.V. : 변동계수 

-R-square : 결정계수 

- 모수추정 : parameter estimates의 x=a, intercept=b : y=a+bx

- T for H0: parameter=0 은 각 회귀계수에 대한 t검정시 계산된 검정통계량(T값)

- Prob>|T| : p값 

- T값과 p값을 봤을 때, p값이 유의수준보다 작으면 H0 : B1=0 기각, 즉 '가정된 회귀모형은 유의하다'


3) 회귀계수 B1에 대한 유의성 검정(유의수준 0.05)


PROC PLOT DATA=RESULT HPERCENT=30 VPERCENT=30;

PLOT residual*x rstudent*predict;

RUN;


결과값 해석

- residual*x는 독립변수에 대한 잔차의 산점도

rstudent*predict 오차항의 등분산성이 성립하는지 보기 위한 산점도 (0을 중심으로 랜덤하게 나타나나, 어느 한쪽으로 쏠려서 나타나지 않는가)


4) 잔차분석


PROC UNIVERATE DATA=RESULT NORMAL PLOT;

VAR residual;

RUN;


결과값 해석

- 정규성의 검정 샤피로-윌크 통계량 W는 p값을 나타낸다. p값이 유의수준보다 작으면 h0기각, 유의수준보다 크면 귀무가설은 기각되지 않는다 = 즉 '오차항은 정규분포를 따른다'



[출처] <SAS와 함께하는 통계이론과 자료분석>, 배현웅 


'Data Analysis' 카테고리의 다른 글

딥러닝 - 하용호 대표 강연  (0) 2018.04.25
통계분석기법 용어 정리   (0) 2016.08.22
SAS를 이용한 상관분석  (0) 2014.08.24
SAS를 이용한 산점도 그리기  (0) 2014.08.24
SAS를 이용한 분산분석  (0) 2014.08.24