Data Analysis(19)
-
다중분류 모델의 평가지표 인접 정확도
precise_accuracy = np.sum(y_pred == y_test)/len(y_pred) Adjacent_accuracy = np.sum(np.abs(y_pred == y_test)
2024.06.18 -
탐색적 데이터 분석 - 선형 PCA, 비선형 PCA
어떤 변수가 가장 유의한지 데이터가 너무 많아서 단순히 산점도를 뿌려볼 수 없을 때 혹은 산점도는 단순히 선형관계 만을 나타낸다는 한계가 있으므로 각 변수를 PCA를 통해 변환하여 주성분1과 주성분2를 x,y축으로 하는 좌표에 데이터를 뿌려보고 (정규성을 만족하지 않아도 괜찮은) 윌 콕슨 검정 p-value를 곁들여서 해당 변수로 잘 나뉘는지(해당 변수를 pca로 변환했을 때의 값이 target을 잘 구분하는지) 해당 변수의 pvalue는 유의한지를 살펴볼 수 있다 이후로 가장 유의하다고 생각한 변수에 대해서 주성분1, 주성분2 과 해당 변수의 상관관계를 통계적으로 검정해보면 되는데 해당 변수로 만든 pca 와 원래값을 해당 변수를 제외한 다른 변수의 pca 와 원래값을 T테스트를 돌려봐서 동질한지 다른..
2024.06.13 -
Skewness 비대칭도
Skewness 비대칭도 = 실수 값 확률 변수의 확률 분포 비대칭성을 나타내는 지표이다. 왜도의 값은 양수나 음수가 될 수 있으며 정의되지 않을 수도 있다. 왜도가 음수일 경우에는 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며 중앙값을 포함한 자료가 오른쪽에 더 많이 분포해 있다. 왜도가 양수일 때는 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며 자료가 왼쪽에 더 많이 분포해 있다는 것을 나타낸다. 평균과 중앙값이 같으면 왜도는 0이 된다. Source : https://ko.m.wikipedia.org/wiki/비대칭도
2022.05.26 -
hive sql - 다양한 group by - grouping sets , with cube
select A,B,C, count(distinct cust_id) from dataset group by A,B,C 1. grouping sets select A,B,C, grouping__id, count(distinct cust_id) from dataset group by A,B,C grouping sets ((),(A),(B),(C),(A,C),(B,C),(A,B,C)) 2. cube select A,B,C, grouping__id, count(distinct cust_id) from dataset group by A,B,C with cube 3. roll up select A,B,C, grouping__id, count(distinct cust_id) from dataset group by A..
2022.05.01 -
정규표현식 예제
https://blogpack.tistory.com/560 복사해서 바로 사용하는 자주 사용하는 정규표현식(Regular Expression) Top 20 1. 영문자 소문자, 숫자, "-", "_" 로만 구성된 길이 2 ~ 10자리 사이 문자열 /^[a-z0-9_-]{2,10}$/ 2. 신용카드 번호 19자리 숫자와 "-": /^[0-9-]{19}$/ 4-4-4-4 체크: /^[0-9]{4}[-\s\.]?[0-9]{4}[-\s\.]?[0-9.. blogpack.tistory.com https://codingspooning.tistory.com/entry/MySQL-정규표현식-검색하기-REGEXP-LIKE
2022.01.06 -
시퀀스 데이터 마이닝 Sequential Data Mining
[참고자료] 사용자 행동 데이터의 시퀀스 패턴 마이닝 기술 동향(임지연, 2020) 1. 시퀀스 데이터란? 시퀀스 데이터 = 특정 기간동안 대상의 행동을 나타내는 “선후 관계”가 있는 항목들의 집합 - action (or event)의 집합 : action 1, action 2, action 3 .. 같이 구성되어 전체를 이루며, 이들 원소간에서는 중복이 허용되지 않는다. 단 하나의 원소에는 여러 시퀀스에 포함될 수 있다 - “시간”축이 존재 - action 간의 “순서”가 존재 - 시퀀스의 길이 = 시퀀스를 구성하는 항목의 개수 ex ) sequence = 의 시퀀스의 길이는 12이며, 서로 다른 7개의 항목(abcdefg)으로 이루어져있고, 6개의 원소(a..
2021.08.31 -
Data-deiven attribution modeling explained
https://www.google.co.kr/amp/s/www.vertical-leap.uk/blog/data-driven-attribution-modelling/amp/
2020.06.16 -
[펌] AWS redshift distkey 분산 관련
좋은 글 감사합니다 !! 데이터 분산 키 정리 블로그글 바로가기
2020.04.28 -
Data Scientist 영어 면접 준비
영어 면접 준비 위한 자료 Product Quant https://brilliant.org/ Brilliant | Learn to think Brilliant - Build quantitative skills in math, science, and computer science with fun and challenging interactive explorations. brilliant.org https://www.itl.nist.gov/div898/handbook/index.htm Applied Data Kaggle 참여 Coding - leetcode (및 Hackerank)에서 회사 관련한 Python 문제 풀기 참고할 자료 - 영어 면접에 도움 되는 사이트들
2019.09.20 -
PRICING AND PROMOTION ANALYTICS in CPG and Retail industry
출처 : https://www.wns.com/Portals/0/Documents/Articles/PDFFiles/600/128/WNS_Article_Unlocking%20the%20Power%20of%20Pricing%20Analytics%20for%20Higher%20Marketing%20Returns.pdf VARIOUS PRICING AND PROMOTION ANALYTICS TECHNIQUES Price Optimization Models § These are mathematical programs that calculate how demand varies at different price levels, and then combine that data with information on costs..
2019.08.24