임베딩 벡터 - 4. 임베딩 생성 방법

2025. 3. 26. 17:39AI/AI

 

📘 4. 임베딩 생성 방법


🔹 4.1 수작업 특징 기반 벡터화

초기 머신러닝에서는 사람이 직접 중요한 특성(feature)을 골라 벡터로 구성했습니다.

  • 예: 문장 길이, 특정 단어 존재 여부, 키워드 빈도 등
  • 장점: 해석이 쉽고 단순
  • 단점: 자동화가 어렵고, 문맥/의미 정보를 담기 어려움

🔹 4.2 통계 기반 방법 (TF-IDF)

TF-IDF (Term Frequency - Inverse Document Frequency)
단어가 문서에 얼마나 자주 등장하면서도 전체 문서에서는 얼마나 드문지를 고려한 가중치를 부여합니다.

  • 벡터는 희소(sparse)하고 차원 수는 단어 수와 같음
  • 문맥 정보 없음, 단어 순서 무시
  • 빠르고 해석이 쉬워 정보 검색에서 많이 활용됨

🔹 4.3 신경망 기반 임베딩 학습

딥러닝을 활용해 단어, 문장, 문서 등을 자동으로 의미 있는 벡터로 학습하는 방식
→ 현재 가장 널리 사용되는 임베딩 기법


🔸 4.3.x 대표 모델 비교

모델 구조 문맥 고려 서브워드 처리 속도 리소스 요구 특징
Word2Vec 단층 신경망 ✅ (국소 문맥) 🔵 빠름 🔵 낮음 의미 기반 단어 임베딩
GloVe 행렬 분해 🔶 (전역 통계) 🔵 빠름 🔵 낮음 전체 말뭉치 통계 반영
FastText Word2Vec + n-gram 🟡 보통 🟡 보통 희귀 단어 강함
BERT 트랜스포머 ✅ (양방향) 🔴 느림 🔴 높음 문맥의존적 표현
Sentence-BERT BERT + Siamese 🔴 느림 🔴 높음 문장 유사도 특화
SimCSE BERT 기반 + dropout 🟡 보통 🟡 보통 간결한 구조, 고성능

🔵 빠름 / 🟡 보통 / 🔴 느림
✅ 있음 / ❌ 없음 / 🔶 제한적


🔸 모델 간 주요 차이 요약

  • Word2Vec: 주변 단어 기반, 빠르고 의미 포착에 효과적
  • GloVe: 말뭉치 전체 통계 반영, 전역적 의미
  • FastText: 단어 내부 단위(n-gram) 학습 → 희귀어에 강함
  • BERT: 문맥 기반 표현, 단어 의미 분화 가능
  • Sentence-BERT: 문장 간 유사도 계산 최적화
  • SimCSE: 구조 간단 + 유사도 성능 우수 (경량 모델 대안)

🔹 시각적 흐름도: 임베딩 생성 과정

[ 입력 데이터 (텍스트, 이미지, 사용자 행동 등) ]
                    ↓
      [ 전처리 및 토큰화 (문장 분리, 단어 분해 등) ]
                    ↓
 ┌────────────┬───────────────┐
 │ 통계 기반 │ 신경망 기반    │
 │ (TF-IDF)  │ (Word2Vec, BERT 등) │
 └────────────┴───────────────┘
                    ↓
        [ 임베딩 벡터 (Dense Vector) ]
                    ↓
 [ 활용: 검색, 추천, 분류, 유사도 측정, 시각화 ]

🔹 📌 요약 정리

방식 대표 기법 장점 단점
수작업 기반 수치화된 특징 (ex: 길이, 키워드) 간단, 해석 용이 자동화/일반화 어려움
통계 기반 TF-IDF 빠르고 구현 쉬움 문맥, 의미 반영 불가
신경망 기반 Word2Vec, BERT, SimCSE 등 문맥·의미 반영, 유연함 느림, 자원 소모 ↑

🔸 추천 활용 가이드

목적 추천 기법
빠른 검색/분류 TF-IDF, Word2Vec
문맥/다의어 처리 BERT
문장 유사도 비교 Sentence-BERT, SimCSE
희귀어, 신조어 대응 FastText