임베딩 벡터 - 6. 임베딩 품질 평가

2025. 3. 26. 18:09AI/AI

 

📘 6. 임베딩 품질 평가


🔹 6.1 유사도 기반 평가 (Intrinsic Evaluation)

✅ 개요

임베딩 벡터 자체의 품질을 평가하는 방식으로,
벡터 간 유사도 계산 결과가 실제 의미적 유사성과 얼마나 일치하는지를 측정합니다.

💡 대표 방법

  • 단어 유사도 평가:
    • 예) man과 woman, cat과 dog
    • 벡터 간 코사인 유사도 vs. 사람의 유사도 평가 비교
    • 📊 사용 데이터셋: WordSim-353, SimLex-999, MEN
  • 문장 유사도 평가:
    • 문장 쌍 간 의미 유사도를 수치화
    • 📊 사용 데이터셋: STS-Benchmark, SICK, STS12~STS16

📏 주요 평가 지표

지표 설명
피어슨 상관계수 두 수치 값 간의 선형 상관 정도 (−1 ~ 1)
스피어만 순위 상관계수 순위 간 일치 정도 측정 (비선형 포함)

📌 0.7 이상이면 높은 상관관계로 간주

⚠️ 한계 및 주의사항

  • 벡터 자체 품질만 평가 → 실제 태스크 성능과 다를 수 있음
  • 언어 자원 부족 시 평가 어려움

🔹 6.2 다운스트림 태스크 평가 (Extrinsic Evaluation)

✅ 개요

임베딩을 실제 태스크에 적용한 후, 최종 출력 성능(정확도 등)으로 간접 평가하는 방식입니다.

💡 대표 태스크

  • 문장 분류: 감성 분석, 주제 분류 등
  • 자연어 추론(NLI): 문장 간 의미 관계 파악
  • 질의응답 / 검색 정확도 평가

📏 주요 평가 지표

지표 설명
정확도 (Accuracy) 전체 예측 중 맞춘 비율
정밀도 (Precision) 예측한 정답 중 실제로 맞은 비율
재현율 (Recall) 실제 정답 중 맞춘 비율
F1-score 정밀도와 재현율의 조화 평균
MRR / MAP / NDCG 검색/QA에서 정답의 순위 반영 지표

📊 사용 데이터셋

  • GLUE / SuperGLUE: MRPC, QQP, MNLI 등
  • TREC, AG News: 텍스트 분류
  • MS MARCO, Natural Questions: 질의응답 / 검색

⚠️ 한계 및 주의사항

  • 임베딩 품질 외에도 모델 구조, 하이퍼파라미터의 영향 존재
  • 계산 비용이 크고, 비교에 시간이 소요됨

🔹 6.3 벤치마크 데이터셋 예시

평가 목적 데이터셋 설명
단어 유사도 WordSim-353, SimLex-999, MEN 단어 간 유사도 판단
문장 유사도 STS-B, STS Benchmark, SICK 문장 쌍 간 의미 비교
문장 분류 SST-2, AG News, TREC 감정/주제 분류 정확도
자연어 추론 SNLI, MNLI, RTE 문장 간 관계 판단 (NLI)
질의응답/검색 MS MARCO, Natural Questions 검색 결과 적절성 평가

🔹 6.4 다국어 및 멀티모달 임베딩 평가

✅ 다국어(Multilingual) 임베딩 평가

  • 같은 의미의 문장을 여러 언어로 표현했을 때,
    생성된 벡터가 서로 유사한 위치에 매핑되는지 평가

📊 대표 데이터셋

데이터셋 평가 내용
XNLI 다국어 자연어 추론 (15개 언어)
BUCC, Tatoeba 언어 간 의미 일치성 평가
MLDoc 다국어 문서 분류

✅ 멀티모달(Multimodal) 임베딩 평가

  • 텍스트, 이미지, 오디오 등의 서로 다른 모달리티 데이터를 같은 벡터 공간에 잘 매핑했는지 평가

📊 대표 데이터셋

데이터셋 평가 내용
MS-COCO, Flickr30k 이미지 ↔ 캡션 유사도 (Top-k Accuracy 등)
CLIP Benchmark 텍스트 ↔ 이미지 매칭 정확도 평가

⚠️ 주의사항

  • 다국어는 언어 자원 부족 문제
  • 멀티모달은 정답 기준 모호성학습 데이터의 편향 문제 존재

🔹 📌 최종 요약 정리

평가 방식 목적 대표 지표 장점 한계
유사도 기반 벡터 의미 보존 측정 피어슨, 스피어만 빠르고 직관적 태스크 성능과 괴리 가능
다운스트림 평가 실제 적용력 측정 Accuracy, F1 등 실용적, 현실 반영 외부 요소 영향 있음
다국어 평가 다양한 언어 표현 대응력 XNLI 정확도 등 범용성 확보 리소스 부족
멀티모달 평가 텍스트-이미지 등 통합 표현력 Top-k Accuracy 다양한 태스크 확장 기준 모호성, 복잡도 ↑