NLP 4 - 단어 임베딩

2021. 8. 1. 13:34algorithm/Deep Learning

임베딩의 종류

1. Tf-idf


위의 방법은 문서의 개수가 제한되어 있다는 한계점
-> 단어-문서 를 단어-단어로 바꾼다

주변의 n개의 단어를 같이 본다

단어의 길이보다 “방향”이 중요
= 각도 theta 가 중요

두 단어의 벡터간의 각도 theta가 작을 수록 두 단어는 비슷하다

로그를 취함으로써 좀 더 smooth 하게 증가하도록 함



Td-idf 는 단어의 개수(= v) 만큼 연산이 커지지만
임베딩은 d 가 몇백개 수준

파이토치나 텐서플로우에서 두 가지를 동시에 사용할 것
-> wide 한 표현과 deep한(보통 임베딩은 여러 레이어를 쌓아서 씀) 표현의 특징을 결합