2014. 8. 24. 16:36ㆍData Analysis
예제 ) 백화점을 방문하는 고객수(X)와 매출액(Y) 사이의 관계를 분석해보자
1) 고객수와 매출액에 대한 산점도
PROC PLOT DATA=INPUT ;
PLOT 매출액(Y)*고객수(X) / VPOS=30 HPOS=50;
RUN;
2) 단순회귀모형으로 회귀식 추정
PROC REG DATA=INPUT;
MODEL Y=X;
OUTPUT OUT=RESULT P=predict R=residual RSTUDENT=rstudent;
RUN;
결과값 해석
- model, 종속변수 출력됨
- 분산분석 출력됨
- 자유도DF, 제곱합Sum of Squares, 평균제곱Mean Square, F값, p값
-Proc>F값은 p값을 의미하며,p값이 유의수준보다 작으면 '가정된 회귀모형이 주어진 자료에 잘 적합한다'
-Root MSE : 모집단의 표준편차의 추정치
-Dep Mean : 종속변수의 평균값
-C.V. : 변동계수
-R-square : 결정계수
- 모수추정 : parameter estimates의 x=a, intercept=b : y=a+bx
- T for H0: parameter=0 은 각 회귀계수에 대한 t검정시 계산된 검정통계량(T값)
- Prob>|T| : p값
- T값과 p값을 봤을 때, p값이 유의수준보다 작으면 H0 : B1=0 기각, 즉 '가정된 회귀모형은 유의하다'
3) 회귀계수 B1에 대한 유의성 검정(유의수준 0.05)
PROC PLOT DATA=RESULT HPERCENT=30 VPERCENT=30;
PLOT residual*x rstudent*predict;
RUN;
결과값 해석
- residual*x는 독립변수에 대한 잔차의 산점도
- rstudent*predict 오차항의 등분산성이 성립하는지 보기 위한 산점도 (0을 중심으로 랜덤하게 나타나나, 어느 한쪽으로 쏠려서 나타나지 않는가)
4) 잔차분석
PROC UNIVERATE DATA=RESULT NORMAL PLOT;
VAR residual;
RUN;
결과값 해석
- 정규성의 검정 샤피로-윌크 통계량 W는 p값을 나타낸다. p값이 유의수준보다 작으면 h0기각, 유의수준보다 크면 귀무가설은 기각되지 않는다 = 즉 '오차항은 정규분포를 따른다'
[출처] <SAS와 함께하는 통계이론과 자료분석>, 배현웅
'Data Analysis' 카테고리의 다른 글
딥러닝 - 하용호 대표 강연 (0) | 2018.04.25 |
---|---|
통계분석기법 용어 정리 (0) | 2016.08.22 |
SAS를 이용한 상관분석 (0) | 2014.08.24 |
SAS를 이용한 산점도 그리기 (0) | 2014.08.24 |
SAS를 이용한 분산분석 (0) | 2014.08.24 |