임베딩 벡터 - 3. 다양한 임베딩 유형
2025. 3. 26. 17:27ㆍAI/AI
📘 3. 다양한 임베딩 유형
🔹 3.1 단어 임베딩 (Word Embedding)
단어를 고정된 길이의 벡터로 표현하여, 단어 간 의미적 유사성을 벡터 공간에서 반영합니다.
✅ 대표 모델 비교
모델 | 핵심 원리 | 특징 |
Word2Vec | 주변 단어 예측(CBOW, Skip-gram) | 빠른 학습, 문맥 기반 의미 포착 |
GloVe | 전체 말뭉치의 동시 등장 통계 사용 | 전역적인 통계 정보 반영 |
FastText | 단어를 n-gram 단위 서브워드로 분해 | 신조어, 형태소 처리에 강함 |
📌 요약:
Word2Vec은 문맥, GloVe는 빈도 통계, FastText는 단어 내부 구조를 학습에 활용합니다.
🔹 3.2 문장/문서 임베딩 (Sentence/Document Embedding)
하나의 문장 또는 문서 전체를 의미 기반의 벡터로 압축 표현합니다.
✅ 대표 모델 비교
모델 | 핵심 원리 | 특징 |
Sentence-BERT | BERT 구조에 문장 쌍 입력 + 유사도 학습 | 검색, 질의응답에 적합 |
SimCSE | Dropout 기반 데이터 증강으로 문장 간 유사도 학습 | 구조 간단, 고성능 |
USE (Universal Sentence Encoder) | 다양한 태스크를 아우르는 범용 임베딩 | 빠르고 넓은 범위에 적용 가능 |
📌 요약:
Sentence-BERT는 정밀 유사도 학습, SimCSE는 효율성과 성능, USE는 속도와 범용성이 강점입니다.
🔹 3.3 이미지 임베딩
이미지를 벡터로 변환하여 시각적 유사성, 객체 정보 등을 표현합니다.
🔸 3.3.1 CNN 기반 임베딩
- 합성곱 신경망(CNN)을 통해 이미지 특징 추출
- 로컬 정보(패턴, 질감 등)에 강함
- 대표 모델: ResNet, VGG, Inception
🔸 3.3.2 Vision Transformer 기반 임베딩
- 이미지를 패치로 나눠 텍스트처럼 처리
- 글로벌 문맥과 관계 표현에 뛰어남
- 대표 모델: ViT, CLIP
🔹 3.4 사용자/아이템 임베딩 (추천 시스템)
사용자와 아이템을 벡터로 표현해 개인화된 추천이 가능하도록 만듭니다.
- 사용자 임베딩: 행동 이력(클릭, 구매 등) 기반
- 아이템 임베딩: 제품 속성, 설명 텍스트 등을 기반
💡 예시
- 사용자: [0.85, 0.12, 0.33]
- 아이템 A: [0.80, 0.10, 0.35] → 점곱 ↑ → 추천
🔹 3.5 멀티모달 임베딩
서로 다른 형태의 데이터를 같은 벡터 공간에 매핑하여 상호 연결합니다.
예: 텍스트 ↔ 이미지, 텍스트 ↔ 오디오
✅ 대표 모델
- CLIP (OpenAI): 텍스트-이미지 연결
- ALIGN, Florence, Flamingo 등
💡 예시
- “해변에서 노는 강아지”라는 문장 ↔ 해당 이미지
- 서로 다른 모달리티지만 유사한 의미 → 가까운 임베딩
🔹 📌 요약 정리
임베딩 유형 | 대상 | 주요 모델 | 특징 |
단어 임베딩 | 단어 | Word2Vec, GloVe, FastText | 단어 간 의미 유사성 반영 |
문장/문서 임베딩 | 문장, 문서 | Sentence-BERT, SimCSE, USE | 문맥과 구조 이해, 검색·QA |
이미지 임베딩 | 사진, 영상 | CNN, ViT, CLIP | 시각 정보 추출, 유사 이미지 검색 |
사용자/아이템 임베딩 | 행동 이력, 상품 정보 | MF, DeepFM, DNN 등 | 개인화 추천, 유사 행동군 분석 |
멀티모달 임베딩 | 텍스트+이미지 등 | CLIP, ALIGN 등 | 다양한 모달리티 간 연결 |
'AI > AI' 카테고리의 다른 글
임베딩 벡터 - 5. 임베딩 벡터의 활용 (0) | 2025.03.26 |
---|---|
임베딩 벡터 - 4. 임베딩 생성 방법 (0) | 2025.03.26 |
임베딩 벡터 - 2. 임베딩의 기본 원리 (0) | 2025.03.26 |
임베딩 벡터 - 1. 임베딩 벡터란? (0) | 2025.03.26 |
Cloud AI - 마무리 (0) | 2025.03.18 |