임베딩 벡터 - 4. 임베딩 생성 방법

임베딩 벡터 - 4. 임베딩 생성 방법

2025. 3. 26. 17:39ㆍAI/AI

📘 4. 임베딩 생성 방법

🔹 4.1 수작업 특징 기반 벡터화

초기 머신러닝에서는 사람이 직접 중요한 특성(feature)을 골라 벡터로 구성했습니다.

예: 문장 길이, 특정 단어 존재 여부, 키워드 빈도 등
장점: 해석이 쉽고 단순
단점: 자동화가 어렵고, 문맥/의미 정보를 담기 어려움

🔹 4.2 통계 기반 방법 (TF-IDF)

TF-IDF (Term Frequency - Inverse Document Frequency)는
단어가 문서에 얼마나 자주 등장하면서도 전체 문서에서는 얼마나 드문지를 고려한 가중치를 부여합니다.

벡터는 희소(sparse)하고 차원 수는 단어 수와 같음
문맥 정보 없음, 단어 순서 무시
빠르고 해석이 쉬워 정보 검색에서 많이 활용됨

🔹 4.3 신경망 기반 임베딩 학습

딥러닝을 활용해 단어, 문장, 문서 등을 자동으로 의미 있는 벡터로 학습하는 방식
→ 현재 가장 널리 사용되는 임베딩 기법

🔸 4.3.x 대표 모델 비교

모델	구조	문맥 고려	서브워드 처리	속도	리소스 요구	특징
Word2Vec	단층 신경망	✅ (국소 문맥)	❌	🔵 빠름	🔵 낮음	의미 기반 단어 임베딩
GloVe	행렬 분해	🔶 (전역 통계)	❌	🔵 빠름	🔵 낮음	전체 말뭉치 통계 반영
FastText	Word2Vec + n-gram	✅	✅	🟡 보통	🟡 보통	희귀 단어 강함
BERT	트랜스포머	✅ (양방향)	❌	🔴 느림	🔴 높음	문맥의존적 표현
Sentence-BERT	BERT + Siamese	✅	❌	🔴 느림	🔴 높음	문장 유사도 특화
SimCSE	BERT 기반 + dropout	✅	❌	🟡 보통	🟡 보통	간결한 구조, 고성능

🔵 빠름 / 🟡 보통 / 🔴 느림
✅ 있음 / ❌ 없음 / 🔶 제한적

🔸 모델 간 주요 차이 요약

Word2Vec: 주변 단어 기반, 빠르고 의미 포착에 효과적
GloVe: 말뭉치 전체 통계 반영, 전역적 의미
FastText: 단어 내부 단위(n-gram) 학습 → 희귀어에 강함
BERT: 문맥 기반 표현, 단어 의미 분화 가능
Sentence-BERT: 문장 간 유사도 계산 최적화
SimCSE: 구조 간단 + 유사도 성능 우수 (경량 모델 대안)

🔹 시각적 흐름도: 임베딩 생성 과정

[ 입력 데이터 (텍스트, 이미지, 사용자 행동 등) ]
                    ↓
      [ 전처리 및 토큰화 (문장 분리, 단어 분해 등) ]
                    ↓
 ┌────────────┬───────────────┐
 │ 통계 기반 │ 신경망 기반    │
 │ (TF-IDF)  │ (Word2Vec, BERT 등) │
 └────────────┴───────────────┘
                    ↓
        [ 임베딩 벡터 (Dense Vector) ]
                    ↓
 [ 활용: 검색, 추천, 분류, 유사도 측정, 시각화 ]

🔹 📌 요약 정리

방식	대표 기법	장점	단점
수작업 기반	수치화된 특징 (ex: 길이, 키워드)	간단, 해석 용이	자동화/일반화 어려움
통계 기반	TF-IDF	빠르고 구현 쉬움	문맥, 의미 반영 불가
신경망 기반	Word2Vec, BERT, SimCSE 등	문맥·의미 반영, 유연함	느림, 자원 소모 ↑

🔸 추천 활용 가이드

목적	추천 기법
빠른 검색/분류	TF-IDF, Word2Vec
문맥/다의어 처리	BERT
문장 유사도 비교	Sentence-BERT, SimCSE
희귀어, 신조어 대응	FastText

'AI > AI' 카테고리의 다른 글

임베딩 벡터 - 6. 임베딩 품질 평가 (0)	2025.03.26
임베딩 벡터 - 5. 임베딩 벡터의 활용 (0)	2025.03.26
임베딩 벡터 - 3. 다양한 임베딩 유형 (0)	2025.03.26
임베딩 벡터 - 2. 임베딩의 기본 원리 (0)	2025.03.26
임베딩 벡터 - 1. 임베딩 벡터란? (0)	2025.03.26

개발_노트