'Data Analysis' 카테고리의 글 목록

precise_accuracy = np.sum(y_pred == y_test)/len(y_pred) Adjacent_accuracy = np.sum(np.abs(y_pred == y_test)

2024.06.18

어떤 변수가 가장 유의한지 데이터가 너무 많아서 단순히 산점도를 뿌려볼 수 없을 때 혹은 산점도는 단순히 선형관계 만을 나타낸다는 한계가 있으므로 각 변수를 PCA를 통해 변환하여 주성분1과 주성분2를 x,y축으로 하는 좌표에 데이터를 뿌려보고 (정규성을 만족하지 않아도 괜찮은) 윌 콕슨 검정 p-value를 곁들여서 해당 변수로 잘 나뉘는지(해당 변수를 pca로 변환했을 때의 값이 target을 잘 구분하는지) 해당 변수의 pvalue는 유의한지를 살펴볼 수 있다 이후로 가장 유의하다고 생각한 변수에 대해서 주성분1, 주성분2 과 해당 변수의 상관관계를 통계적으로 검정해보면 되는데 해당 변수로 만든 pca 와 원래값을 해당 변수를 제외한 다른 변수의 pca 와 원래값을 T테스트를 돌려봐서 동질한지 다른..

2024.06.13

Skewness 비대칭도

Skewness 비대칭도 = 실수 값 확률 변수의 확률 분포 비대칭성을 나타내는 지표이다. 왜도의 값은 양수나 음수가 될 수 있으며 정의되지 않을 수도 있다. 왜도가 음수일 경우에는 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며 중앙값을 포함한 자료가 오른쪽에 더 많이 분포해 있다. 왜도가 양수일 때는 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며 자료가 왼쪽에 더 많이 분포해 있다는 것을 나타낸다. 평균과 중앙값이 같으면 왜도는 0이 된다. Source : https://ko.m.wikipedia.org/wiki/비대칭도

2022.05.26

hive sql - 다양한 group by - grouping sets , with cube

select A,B,C, count(distinct cust_id) from dataset group by A,B,C 1. grouping sets select A,B,C, grouping__id, count(distinct cust_id) from dataset group by A,B,C grouping sets ((),(A),(B),(C),(A,C),(B,C),(A,B,C)) 2. cube select A,B,C, grouping__id, count(distinct cust_id) from dataset group by A,B,C with cube 3. roll up select A,B,C, grouping__id, count(distinct cust_id) from dataset group by A..

2022.05.01

정규표현식 예제

https://blogpack.tistory.com/560 복사해서 바로 사용하는 자주 사용하는 정규표현식(Regular Expression) Top 20 1. 영문자 소문자, 숫자, "-", "_" 로만 구성된 길이 2 ~ 10자리 사이 문자열 /^[a-z0-9_-]{2,10}$/ 2. 신용카드 번호 19자리 숫자와 "-": /^[0-9-]{19}$/ 4-4-4-4 체크: /^[0-9]{4}[-\s\.]?[0-9]{4}[-\s\.]?[0-9.. blogpack.tistory.com https://codingspooning.tistory.com/entry/MySQL-정규표현식-검색하기-REGEXP-LIKE

2022.01.06

시퀀스 데이터 마이닝 Sequential Data Mining

[참고자료] 사용자 행동 데이터의 시퀀스 패턴 마이닝 기술 동향(임지연, 2020) 1. 시퀀스 데이터란? 시퀀스 데이터 = 특정 기간동안 대상의 행동을 나타내는 “선후 관계”가 있는 항목들의 집합 - action (or event)의 집합 : action 1, action 2, action 3 .. 같이 구성되어 전체를 이루며, 이들 원소간에서는 중복이 허용되지 않는다. 단 하나의 원소에는 여러 시퀀스에 포함될 수 있다 - “시간”축이 존재 - action 간의 “순서”가 존재 - 시퀀스의 길이 = 시퀀스를 구성하는 항목의 개수 ex ) sequence = 의 시퀀스의 길이는 12이며, 서로 다른 7개의 항목(abcdefg)으로 이루어져있고, 6개의 원소(a..

2021.08.31

Data-deiven attribution modeling explained

https://www.google.co.kr/amp/s/www.vertical-leap.uk/blog/data-driven-attribution-modelling/amp/

2020.06.16

[펌] AWS redshift distkey 분산 관련

좋은 글 감사합니다 !! 데이터 분산 키 정리 블로그글 바로가기

2020.04.28

Data Scientist 영어 면접 준비

영어 면접 준비 위한 자료 Product Quant https://brilliant.org/ Brilliant | Learn to think Brilliant - Build quantitative skills in math, science, and computer science with fun and challenging interactive explorations. brilliant.org https://www.itl.nist.gov/div898/handbook/index.htm Applied Data Kaggle 참여 Coding - leetcode (및 Hackerank)에서 회사 관련한 Python 문제 풀기 참고할 자료 - 영어 면접에 도움 되는 사이트들

2019.09.20

PRICING AND PROMOTION ANALYTICS in CPG and Retail industry

출처 : https://www.wns.com/Portals/0/Documents/Articles/PDFFiles/600/128/WNS_Article_Unlocking%20the%20Power%20of%20Pricing%20Analytics%20for%20Higher%20Marketing%20Returns.pdf VARIOUS PRICING AND PROMOTION ANALYTICS TECHNIQUES Price Optimization Models § These are mathematical programs that calculate how demand varies at different price levels, and then combine that data with information on costs..

2019.08.24

You can count on me

You can count on me

태그

최근글

댓글

공지사항

아카이브

Data Analysis(19)

티스토리툴바