임베딩 벡터 - 4. 임베딩 생성 방법
2025. 3. 26. 17:39ㆍAI/AI
📘 4. 임베딩 생성 방법
🔹 4.1 수작업 특징 기반 벡터화
초기 머신러닝에서는 사람이 직접 중요한 특성(feature)을 골라 벡터로 구성했습니다.
- 예: 문장 길이, 특정 단어 존재 여부, 키워드 빈도 등
- 장점: 해석이 쉽고 단순
- 단점: 자동화가 어렵고, 문맥/의미 정보를 담기 어려움
🔹 4.2 통계 기반 방법 (TF-IDF)
TF-IDF (Term Frequency - Inverse Document Frequency)는
단어가 문서에 얼마나 자주 등장하면서도 전체 문서에서는 얼마나 드문지를 고려한 가중치를 부여합니다.
- 벡터는 희소(sparse)하고 차원 수는 단어 수와 같음
- 문맥 정보 없음, 단어 순서 무시
- 빠르고 해석이 쉬워 정보 검색에서 많이 활용됨
🔹 4.3 신경망 기반 임베딩 학습
딥러닝을 활용해 단어, 문장, 문서 등을 자동으로 의미 있는 벡터로 학습하는 방식
→ 현재 가장 널리 사용되는 임베딩 기법
🔸 4.3.x 대표 모델 비교
모델 | 구조 | 문맥 고려 | 서브워드 처리 | 속도 | 리소스 요구 | 특징 |
Word2Vec | 단층 신경망 | ✅ (국소 문맥) | ❌ | 🔵 빠름 | 🔵 낮음 | 의미 기반 단어 임베딩 |
GloVe | 행렬 분해 | 🔶 (전역 통계) | ❌ | 🔵 빠름 | 🔵 낮음 | 전체 말뭉치 통계 반영 |
FastText | Word2Vec + n-gram | ✅ | ✅ | 🟡 보통 | 🟡 보통 | 희귀 단어 강함 |
BERT | 트랜스포머 | ✅ (양방향) | ❌ | 🔴 느림 | 🔴 높음 | 문맥의존적 표현 |
Sentence-BERT | BERT + Siamese | ✅ | ❌ | 🔴 느림 | 🔴 높음 | 문장 유사도 특화 |
SimCSE | BERT 기반 + dropout | ✅ | ❌ | 🟡 보통 | 🟡 보통 | 간결한 구조, 고성능 |
🔵 빠름 / 🟡 보통 / 🔴 느림
✅ 있음 / ❌ 없음 / 🔶 제한적
🔸 모델 간 주요 차이 요약
- Word2Vec: 주변 단어 기반, 빠르고 의미 포착에 효과적
- GloVe: 말뭉치 전체 통계 반영, 전역적 의미
- FastText: 단어 내부 단위(n-gram) 학습 → 희귀어에 강함
- BERT: 문맥 기반 표현, 단어 의미 분화 가능
- Sentence-BERT: 문장 간 유사도 계산 최적화
- SimCSE: 구조 간단 + 유사도 성능 우수 (경량 모델 대안)
🔹 시각적 흐름도: 임베딩 생성 과정
[ 입력 데이터 (텍스트, 이미지, 사용자 행동 등) ]
↓
[ 전처리 및 토큰화 (문장 분리, 단어 분해 등) ]
↓
┌────────────┬───────────────┐
│ 통계 기반 │ 신경망 기반 │
│ (TF-IDF) │ (Word2Vec, BERT 등) │
└────────────┴───────────────┘
↓
[ 임베딩 벡터 (Dense Vector) ]
↓
[ 활용: 검색, 추천, 분류, 유사도 측정, 시각화 ]
🔹 📌 요약 정리
방식 | 대표 기법 | 장점 | 단점 |
수작업 기반 | 수치화된 특징 (ex: 길이, 키워드) | 간단, 해석 용이 | 자동화/일반화 어려움 |
통계 기반 | TF-IDF | 빠르고 구현 쉬움 | 문맥, 의미 반영 불가 |
신경망 기반 | Word2Vec, BERT, SimCSE 등 | 문맥·의미 반영, 유연함 | 느림, 자원 소모 ↑ |
🔸 추천 활용 가이드
목적 | 추천 기법 |
빠른 검색/분류 | TF-IDF, Word2Vec |
문맥/다의어 처리 | BERT |
문장 유사도 비교 | Sentence-BERT, SimCSE |
희귀어, 신조어 대응 | FastText |
'AI > AI' 카테고리의 다른 글
임베딩 벡터 - 6. 임베딩 품질 평가 (0) | 2025.03.26 |
---|---|
임베딩 벡터 - 5. 임베딩 벡터의 활용 (0) | 2025.03.26 |
임베딩 벡터 - 3. 다양한 임베딩 유형 (0) | 2025.03.26 |
임베딩 벡터 - 2. 임베딩의 기본 원리 (0) | 2025.03.26 |
임베딩 벡터 - 1. 임베딩 벡터란? (0) | 2025.03.26 |