NLP(6)
-
NLP 6 - NLP 와 딥모델 2021.09.05
-
NLP 5 - 단어 임베딩 2 - word2vec (skip-gram 위주)
w = 타겟단어 c = context 단어(주변 단어) 목표 는 단어 w를 임베딩 하는 것 = softmax regression 하는 Vw = 이게 주요 학습 대상. ~ 주변 단어의 벡터 Uc 는 softmax regression 잘 만들기 위한 부가적인 파라미터 (weight니까) Input = 하나의 값만 1인 어떤 한 단어의 벡터 주변 단어들의 확률을 계산 Loss function을 softmax cross entropy 문제로 풀어내기 위해 Vw 를 히든 레이어로 사용하여, 가중치 W와 C를 업데이트 하는 과정 원래 스킵그램 모델은 multi-class classification 문제인데 NC estimation 으로 단순화 NCE의 핵심아이디어 1. 고차원 multi-class classific..
2021.08.01 -
NLP 4 - 단어 임베딩
임베딩의 종류 1. Tf-idf 위의 방법은 문서의 개수가 제한되어 있다는 한계점 -> 단어-문서 를 단어-단어로 바꾼다 주변의 n개의 단어를 같이 본다 단어의 길이보다 “방향”이 중요 = 각도 theta 가 중요 두 단어의 벡터간의 각도 theta가 작을 수록 두 단어는 비슷하다 로그를 취함으로써 좀 더 smooth 하게 증가하도록 함 Td-idf 는 단어의 개수(= v) 만큼 연산이 커지지만 임베딩은 d 가 몇백개 수준 파이토치나 텐서플로우에서 두 가지를 동시에 사용할 것 -> wide 한 표현과 deep한(보통 임베딩은 여러 레이어를 쌓아서 씀) 표현의 특징을 결합
2021.08.01 -
NLP 2 - 언어모델
P ( data | theta) = Likelihood란? = 모수가 theta 일때, 해당 데이터가 나타날 확률 Wi는 하나의 문장
2021.07.31 -
중요!! 한국어 NLP 오픈소스 KLUE
https://github.com/KLUE-benchmark/KLUE
2021.07.21 -
Customer2vec, Client2vec, item2vec, prod2vec
출처 : https://www.google.co.kr/amp/s/blog.griddynamics.com/customer2vec-representation-learning-and-automl-for-customer-analytics-and-personalization/amp/ 아래 글은 해당 블로그의 요약글이며, 상세한 내용은 상기 출처를 참고 바랍니다. ———————————————————————————————————- Personalization과 추천 알고리즘 맥락에서 word2vec 방법론의 활용 - 더 정확한 예측력 - 더 유연한 모델 아키텍처 방법론상의 특징 - semantic representation (embeddings) : cluster and analyze embeddings to gai..
2021.06.10