카테고리 없음
텍스트 데이터/인코딩 [머신러닝/딥러닝]
컴벗
2020. 2. 11. 17:13
<텍스트 데이터 다루기>
딥러닝 모델은 수치형 텐서만 다룰 수 있다. (주의, 딥러닝이 사람처럼 진짜 텍스트를 이해하는것이 아닙니다!)
텍스트 벡터화 : 텍스트를 수치형 텐서로 변환하는 과정
-각 단어를 벡터화
-각 문자를 벡터화
-단어나 문자의 n그램 추출하여 벡터화
(n그램이란? 연속된 단어나 문자의 그룹. 로지스틱 회귀나 랜덤 포레스트 같은 얕은 학습 방법의 텍스트 처리 모델을 사용할 때는 강력하고 아주 유용한 특성 공학 방법)
토큰: 텍스트를 나누는 단위
토큰화 : 나누는 작업
1. 원-핫 인코딩
2. 토큰 임베딩(단어 임베딩)