'NLP' 태그의 글 목록

w = 타겟단어 c = context 단어(주변 단어) 목표 는 단어 w를 임베딩 하는 것 = softmax regression 하는 Vw = 이게 주요 학습 대상. ~ 주변 단어의 벡터 Uc 는 softmax regression 잘 만들기 위한 부가적인 파라미터 (weight니까) Input = 하나의 값만 1인 어떤 한 단어의 벡터 주변 단어들의 확률을 계산 Loss function을 softmax cross entropy 문제로 풀어내기 위해 Vw 를 히든 레이어로 사용하여, 가중치 W와 C를 업데이트 하는 과정 원래 스킵그램 모델은 multi-class classification 문제인데 NC estimation 으로 단순화 NCE의 핵심아이디어 1. 고차원 multi-class classific..

2021.08.01

NLP 4 - 단어 임베딩

임베딩의 종류 1. Tf-idf 위의 방법은 문서의 개수가 제한되어 있다는 한계점 -> 단어-문서 를 단어-단어로 바꾼다 주변의 n개의 단어를 같이 본다 단어의 길이보다 “방향”이 중요 = 각도 theta 가 중요 두 단어의 벡터간의 각도 theta가 작을 수록 두 단어는 비슷하다 로그를 취함으로써 좀 더 smooth 하게 증가하도록 함 Td-idf 는 단어의 개수(= v) 만큼 연산이 커지지만 임베딩은 d 가 몇백개 수준 파이토치나 텐서플로우에서 두 가지를 동시에 사용할 것 -> wide 한 표현과 deep한(보통 임베딩은 여러 레이어를 쌓아서 씀) 표현의 특징을 결합

2021.08.01

NLP 2 - 언어모델

P ( data | theta) = Likelihood란? = 모수가 theta 일때, 해당 데이터가 나타날 확률 Wi는 하나의 문장

2021.07.31

중요!! 한국어 NLP 오픈소스 KLUE

https://github.com/KLUE-benchmark/KLUE

2021.07.21

Customer2vec, Client2vec, item2vec, prod2vec

출처 : https://www.google.co.kr/amp/s/blog.griddynamics.com/customer2vec-representation-learning-and-automl-for-customer-analytics-and-personalization/amp/ 아래 글은 해당 블로그의 요약글이며, 상세한 내용은 상기 출처를 참고 바랍니다. ———————————————————————————————————- Personalization과 추천 알고리즘 맥락에서 word2vec 방법론의 활용 - 더 정확한 예측력 - 더 유연한 모델 아키텍처 방법론상의 특징 - semantic representation (embeddings) : cluster and analyze embeddings to gai..

2021.06.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

You can count on me

You can count on me

태그

최근글

댓글

공지사항

아카이브

NLP(6)

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역