카테고리 없음

텍스트 데이터/인코딩 [머신러닝/딥러닝]

컴벗 2020. 2. 11. 17:13

<텍스트 데이터 다루기>

 

딥러닝 모델은 수치형 텐서만 다룰 수 있다. (주의, 딥러닝이 사람처럼 진짜 텍스트를 이해하는것이 아닙니다!)

텍스트 벡터화 : 텍스트를 수치형 텐서로 변환하는 과정

-각 단어를 벡터화

-각 문자를 벡터화

-단어나 문자의 n그램 추출하여 벡터화

(n그램이란? 연속된 단어나 문자의 그룹. 로지스틱 회귀나 랜덤 포레스트 같은 얕은 학습 방법의 텍스트 처리 모델을 사용할 때는 강력하고 아주 유용한 특성 공학 방법)

 

토큰: 텍스트를 나누는 단위

토큰화 : 나누는 작업

1. 원-핫 인코딩

2. 토큰 임베딩(단어 임베딩)