탐색적 데이터 분석 - 선형 PCA, 비선형 PCA

2024. 6. 13. 17:22Data Analysis

어떤 변수가 가장 유의한지
데이터가 너무 많아서 단순히 산점도를 뿌려볼 수 없을 때
혹은 산점도는 단순히 선형관계 만을 나타낸다는 한계가 있으므로

각 변수를 PCA를 통해 변환하여
주성분1과 주성분2를 x,y축으로 하는 좌표에 데이터를 뿌려보고
(정규성을 만족하지 않아도 괜찮은) 윌 콕슨 검정 p-value를 곁들여서
해당 변수로 잘 나뉘는지(해당 변수를 pca로 변환했을 때의 값이 target을 잘 구분하는지)
해당 변수의 pvalue는 유의한지를
살펴볼 수 있다

이후로 가장 유의하다고 생각한 변수에 대해서
주성분1, 주성분2 과 해당 변수의 상관관계를 통계적으로 검정해보면 되는데

해당 변수로 만든 pca 와 원래값을
해당 변수를 제외한 다른 변수의 pca 와 원래값을
T테스트를 돌려봐서 동질한지 다른지 검정할 수 있고
Box plot으로 그려서 비교해보면
눈으로도 확인 가능
- 퀴즈처럼 풀면서 배우는 파이썬 머신러닝 300제, part3. 머신러닝과 패턴인식