임베딩 벡터 - 2. 임베딩의 기본 원리
2025. 3. 26. 16:41ㆍAI/AI
📘 2. 임베딩의 기본 원리
🔹 2.1 고차원 → 저차원 매핑 (직관적 설명 포함)
임베딩은 복잡한 고차원 데이터를, 의미를 보존한 상태로 저차원으로 압축하는 과정입니다.
✅ 용어 설명
- 고차원(high-dimensional): 수천 개 특성(단어 수, 픽셀 수 등)을 가진 벡터 공간
- 저차원(low-dimensional): 수십~수백 차원의 밀집된 벡터 공간
💡 직관적 예시
- 텍스트:
- "고양이"를 one-hot 인코딩하면 [0, 0, 0, 1, 0, ...] (사전 크기만큼 차원)
- 임베딩하면 [0.23, -0.44, 0.91, ...] (예: 100차원 벡터)
- 이미지:
- 강아지 사진 → CNN을 통해 [0.81, 0.35, -0.12, ...]로 변환
- 사용자 행동:
- 사용자의 구매 이력 → 추천 시스템 임베딩 [0.65, 0.22, 0.90, ...]
🧩 비유:
사람의 특징을 키, 성격, 취향 등 수십 가지로 요약하는 것처럼
임베딩은 데이터의 의미 있는 핵심만 추출해 표현하는 요약본입니다.
🔹 2.2 의미 보존 vs. 차원 축소
임베딩은 단순한 압축(차원 축소)이 아니라, "의미를 유지하는 표현 방식"입니다.
✅ 차원 축소란?
- 고차원 데이터를 더 낮은 차원으로 줄이되,
- 핵심 정보 손실을 최소화하는 기법
- 예: PCA, t-SNE, UMAP
✅ 임베딩은 무엇이 다른가?
- 단순한 데이터 압축이 아니라,
- 단어, 이미지, 사용자 간의 의미 관계를 벡터 공간에 반영
항목 | 목적 | 방법 | 예시 |
차원 축소 | 데이터 압축 | 선형/비선형 투영 | PCA, t-SNE |
임베딩 | 의미 기반 표현 | 신경망 학습 등 | Word2Vec, BERT, CNN, 추천 시스템 |
📌 정리:
임베딩은 의미 보존을 전제로 한 "스마트한 차원 축소"라고 볼 수 있습니다.
🔹 2.3 임베딩과 거리(유사도)의 관계
임베딩 벡터는 벡터 간의 거리 또는 각도를 통해
데이터 간 유사성을 계산할 수 있도록 만들어진 구조입니다.
✅ 주요 거리 및 유사도 척도
방식 | 개념 | 특징 | 주로 사용되는 분야 |
코사인 유사도 | 벡터 사이의 각도 | 방향 중심 | 텍스트 유사도, 문서 검색 |
유클리디안 거리 | 두 점 간의 직선 거리 | 위치 중심 | 이미지, 사용자 행동 분석 |
점곱(Dot Product) | 크기 × 방향 | 크기와 방향 모두 반영 | 추천 시스템, 벡터 검색 |
🔧 점곱(Dot Product) 보완 설명
점곱(dot product)은 두 벡터가 같은 방향을 향할수록 큰 값을 가지는 연산입니다.
💡 수식:
A · B = |A||B|cos(θ)
→ 두 벡터의 길이와 사이의 각도에 따라 유사도 결정
✅ 직관적 이해:
- 벡터 A와 B가 유사한 방향이고 길이도 길수록, 점곱은 큰 값을 가집니다.
- 방향이 반대면 음수, 직각이면 0에 가까운 값이 나옵니다.
✅ 예시 (추천 시스템)
- 사용자 벡터: [0.9, 0.1]
- 아이템 A: [0.8, 0.2] → 점곱: 높음 → 추천 가능성 높음
- 아이템 B: [-0.3, 0.5] → 점곱: 낮음 또는 음수 → 관심 낮음
💡 데이터 유형별 유사도 활용 예시
데이터 유형 | 임베딩 예시 | 유사도 활용 방식 |
텍스트 | "커피" → 의미 벡터 | 유사 단어 추천, 검색 |
이미지 | 고양이 사진 → CNN 벡터 | 비슷한 이미지 검색 |
사용자 행동 | 클릭/구매 기록 → 벡터화 | 개인 맞춤 추천 제공 |
🔹 📌 요약 정리
항목 | 설명 |
고차원 → 저차원 매핑 | 복잡한 데이터를 밀집된 벡터로 요약 표현 |
의미 보존 | 압축과 동시에 데이터 간 의미와 관계 유지 |
거리/점곱 | 벡터 간 거리나 각도로 유사도 정량화 가능 |
'AI > AI' 카테고리의 다른 글
임베딩 벡터 - 4. 임베딩 생성 방법 (0) | 2025.03.26 |
---|---|
임베딩 벡터 - 3. 다양한 임베딩 유형 (0) | 2025.03.26 |
임베딩 벡터 - 1. 임베딩 벡터란? (0) | 2025.03.26 |
Cloud AI - 마무리 (0) | 2025.03.18 |
Cloud AI - 5. 최종 프로젝트: 클라우드 AI를 활용한 나만의 AI 서비스 만들기 (운영 및 유지보수) (0) | 2025.03.18 |