벡터가 어떻게 의미를 가질 수 있을까?에 대한 세가지 접근방법
- 저자의 의도는 단어 사용 여부나 그 빈도에서 드러난다고 가정한다.
- 단어의 순서 정보는 무시된다.
- 많이 쓰이는 통계량 : TF-IDF
- 단어의 등장 순서를 학습해 주어진 단어 시퀀스가 얼마나 자연스러운지 확률을 부여한다.
- ELMo, BERT
- 단어의 의미는 그 주변 문맥을 통해 유추히볼 수 있다고 가정한다.
- Word2Vec,
- FastText : 문자 단위 임베딩 기법이고 한글과 궁합이 잘 맞는 편이다.
- GloVe : Word2Vec과 잠재 의미 분석 두 기법의 단점을 극복하고자 한 방법
- Swivel : 구글이 발표한 행렬 분해 기반의 단어 임베딩 기법