algorithm(21)
-
VarClur python 코드
진짜 없는게 없다 https://github.com/jingtt/varclushi 출처 : https://datascience.stackexchange.com/questions/97908/k-means-clustering-over-columns-not-rows
2024.11.06 -
Product Affinity Segmentation Using the Doughnut Clustering Approach
https://www.researchgate.net/publication/259184407_Product_Affinity_Segmentation_Using_the_Doughnut_Clustering_Approach
2024.07.02 -
Sequential Model - Transformer
Illustrated transformer (원글) Illustrated transformer (번역) Pytorch official Transformer tutorial (link)
2023.06.17 -
PyTorch M1 에서 GPU 가속 사용하기
https://discuss.pytorch.kr/t/apple-m1-gpu/286 Apple M1이 탑재된 장치에서 GPU 가속을 사용하려면 어떻게 해야 하나요? 공식 홈페이지와 StackOverflow 등에서 자주 보이는 질문과 답변을 번역하고 있습니다. 몇 일 전 소식이 전해진, 많은 분들께서 오랜 시간 기다리셨고 또 궁금해하시는 Apple M1 칩이 탑재된 맥북 또는 discuss.pytorch.kr 우워어어
2022.05.22 -
추천 - 협업 필터링의 한계
협업 필터링이란 대규모의 기존 사용자 행동 정보를 분석하여 해당 사용자와 비슷한 성향의 사용자들이 기존에 좋아했던 항목을 추천하는 기술이다. 가장 일반적인 예는 온라인 쇼핑 사이 트에서흔히볼수있는‘이상품을구매한사용자가구매한상품들’서비스이다.예를들어‘라면’ 을 구입한 사용자가 ‘생수’를 구입한 경우가 많으면 ‘라면’을 구입하는 구매자에게 ‘생수’를 추천하 는 경우이다. 이 알고리즘은 결과가 직관적이며 항목의 구체적인 내용을 분석할 필요가 없다는 장점이 있 다. 이 경우는 라면과 생수가 식품인지 아닌지, 서로 같이 사용되어야 하는 관계인지 분석할 필요 가 없다. 다만 사용자가 두 제품을 같이 구매했다는 기록을 바탕으로 새로운 사용자에게 추천한 다. 이러한 전략을 사용하는 경우, 비슷한 패턴을 가진 사용자나 ..
2021.09.10 -
NLP 6 - NLP 와 딥모델 2021.09.05
-
Pattern Recognition and Machine Learning 번역본 링크
https://norman3.github.io/prml
2021.08.31 -
NLP 5 - 단어 임베딩 2 - word2vec (skip-gram 위주)
w = 타겟단어 c = context 단어(주변 단어) 목표 는 단어 w를 임베딩 하는 것 = softmax regression 하는 Vw = 이게 주요 학습 대상. ~ 주변 단어의 벡터 Uc 는 softmax regression 잘 만들기 위한 부가적인 파라미터 (weight니까) Input = 하나의 값만 1인 어떤 한 단어의 벡터 주변 단어들의 확률을 계산 Loss function을 softmax cross entropy 문제로 풀어내기 위해 Vw 를 히든 레이어로 사용하여, 가중치 W와 C를 업데이트 하는 과정 원래 스킵그램 모델은 multi-class classification 문제인데 NC estimation 으로 단순화 NCE의 핵심아이디어 1. 고차원 multi-class classific..
2021.08.01 -
NLP 4 - 단어 임베딩
임베딩의 종류 1. Tf-idf 위의 방법은 문서의 개수가 제한되어 있다는 한계점 -> 단어-문서 를 단어-단어로 바꾼다 주변의 n개의 단어를 같이 본다 단어의 길이보다 “방향”이 중요 = 각도 theta 가 중요 두 단어의 벡터간의 각도 theta가 작을 수록 두 단어는 비슷하다 로그를 취함으로써 좀 더 smooth 하게 증가하도록 함 Td-idf 는 단어의 개수(= v) 만큼 연산이 커지지만 임베딩은 d 가 몇백개 수준 파이토치나 텐서플로우에서 두 가지를 동시에 사용할 것 -> wide 한 표현과 deep한(보통 임베딩은 여러 레이어를 쌓아서 씀) 표현의 특징을 결합
2021.08.01 -
NLP 2 - 언어모델
P ( data | theta) = Likelihood란? = 모수가 theta 일때, 해당 데이터가 나타날 확률 Wi는 하나의 문장
2021.07.31