탐색적 데이터 분석 - 선형 PCA, 비선형 PCA
2024. 6. 13. 17:22ㆍData Analysis
어떤 변수가 가장 유의한지
데이터가 너무 많아서 단순히 산점도를 뿌려볼 수 없을 때
혹은 산점도는 단순히 선형관계 만을 나타낸다는 한계가 있으므로
각 변수를 PCA를 통해 변환하여
주성분1과 주성분2를 x,y축으로 하는 좌표에 데이터를 뿌려보고
(정규성을 만족하지 않아도 괜찮은) 윌 콕슨 검정 p-value를 곁들여서
해당 변수로 잘 나뉘는지(해당 변수를 pca로 변환했을 때의 값이 target을 잘 구분하는지)
해당 변수의 pvalue는 유의한지를
살펴볼 수 있다
이후로 가장 유의하다고 생각한 변수에 대해서
주성분1, 주성분2 과 해당 변수의 상관관계를 통계적으로 검정해보면 되는데
해당 변수로 만든 pca 와 원래값을
해당 변수를 제외한 다른 변수의 pca 와 원래값을
T테스트를 돌려봐서 동질한지 다른지 검정할 수 있고
Box plot으로 그려서 비교해보면
눈으로도 확인 가능
- 퀴즈처럼 풀면서 배우는 파이썬 머신러닝 300제, part3. 머신러닝과 패턴인식
'Data Analysis' 카테고리의 다른 글
다중분류 모델의 평가지표 인접 정확도 (0) | 2024.06.18 |
---|---|
Skewness 비대칭도 (0) | 2022.05.26 |
hive sql - 다양한 group by - grouping sets , with cube (0) | 2022.05.01 |
정규표현식 예제 (0) | 2022.01.06 |
시퀀스 데이터 마이닝 Sequential Data Mining (0) | 2021.08.31 |