AI/AI(53)
-
임베딩 벡터 - 10. 정리 및 참고자료
📘 10. 정리 및 참고자료🔹 10.1 핵심 개념 요약핵심 개념요약 설명임베딩 벡터텍스트, 이미지, 사용자 데이터 등을 의미 기반 수치 벡터로 변환한 표현임베딩의 목적의미 보존, 유사성 계산, 기계 학습 입력으로 활용임베딩 방식수작업 기반, 통계 기반(TF-IDF), 신경망 기반 (Word2Vec, BERT 등)임베딩 활용검색, 추천, 문장 분류, 질의응답, 시각화 등임베딩 품질 평가유사도 기반, 다운스트림 태스크, 다국어/멀티모달 테스트주의사항차원 수, 편향 문제, 과적합, 전처리 일관성, 리소스 최적화 필요🔹 10.2 참고 논문 및 공식 링크📄 주요 논문Word2Vec – Mikolov et al., 2013Efficient Estimation of Word Representations in ..
2025.03.26 -
임베딩 벡터 - 9. 실습 예제 및 코드
📘 9. 실습 예제 및 코드🔹 9.1 Python을 활용한 Word2Vec 예제✅ 목적간단한 문장 데이터로 단어 임베딩을 학습하고, 유사 단어를 벡터 기반으로 검색합니다.🛠 사용 라이브러리gensim, nltk💡 주요 파라미터파라미터설명vector_size생성할 임베딩 벡터의 차원 수window주변 단어를 몇 개까지 볼 것인지 (문맥 크기)min_count최소 등장 횟수 미만 단어는 학습 제외sg1: Skip-gram / 0: CBOW 방식 선택🧪 예제 코드from gensim.models import Word2Vecfrom nltk.tokenize import word_tokenizesentences = [ word_tokenize("I love natural language proces..
2025.03.26 -
임베딩 벡터 - 8. 임베딩 벡터 활용 시 주의사항
📘 8. 임베딩 벡터 활용 시 주의사항🔹 8.1 벡터 차원 수의 선택✅ 핵심 개념임베딩의 차원 수는 모델의 표현력과 계산 효율성에 영향을 미치는 중요한 하이퍼파라미터입니다.💡 가이드라인너무 낮으면 → 정보 손실 가능너무 높으면 → 계산량 증가, 과적합 위험📌 실무 팁Word2Vec: 100~300차원BERT 임베딩: 보통 768차원문장/문서 단위에서는 384~768차원이 많이 사용됨🔹 8.2 편향(Bias) 문제✅ 핵심 개념임베딩은 학습 데이터에 포함된 사회적·문화적 편향을 그대로 반영할 수 있습니다.💡 예시“doctor” → 남성 벡터에 더 가까움“nurse” → 여성 벡터에 가까움📌 대응 전략중립화 알고리즘 (Debiasing) 적용편향 검사 데이터셋 (WEAT 등) 활용다양하고 균형 잡..
2025.03.26 -
임베딩 벡터 - 7. 최신 동향과 기술
📘 7. 최신 동향과 기술🔹 7.1 트랜스포머 기반 임베딩✅ 개요트랜스포머(Transformer) 아키텍처는 최근 임베딩 기술의 핵심입니다.BERT, GPT 계열 모델은 문맥을 양방향 또는 조건부로 이해해 임베딩을 생성합니다.💡 특징문맥 의존적인 표현 가능 (다의어 구별 등)입력 토큰 단위로 의미를 동적으로 반영문장, 문단, 문서 수준의 표현력 우수📊 대표 모델BERT: 양방향 인코더RoBERTa: BERT 개선형GPT 계열: 생성 중심DistilBERT, MiniLM: 경량화 모델📌 문장 임베딩에서는 Sentence-BERT, SimCSE가 널리 사용됨🔹 7.2 멀티모달 및 크로스모달 임베딩✅ 개요텍스트, 이미지, 오디오 등 서로 다른 데이터 유형(모달리티)을 공통 임베딩 공간에 매핑하는 방..
2025.03.26 -
임베딩 벡터 - 6. 임베딩 품질 평가
📘 6. 임베딩 품질 평가🔹 6.1 유사도 기반 평가 (Intrinsic Evaluation)✅ 개요임베딩 벡터 자체의 품질을 평가하는 방식으로,벡터 간 유사도 계산 결과가 실제 의미적 유사성과 얼마나 일치하는지를 측정합니다.💡 대표 방법단어 유사도 평가:예) man과 woman, cat과 dog벡터 간 코사인 유사도 vs. 사람의 유사도 평가 비교📊 사용 데이터셋: WordSim-353, SimLex-999, MEN문장 유사도 평가:문장 쌍 간 의미 유사도를 수치화📊 사용 데이터셋: STS-Benchmark, SICK, STS12~STS16📏 주요 평가 지표지표설명피어슨 상관계수두 수치 값 간의 선형 상관 정도 (−1 ~ 1)스피어만 순위 상관계수순위 간 일치 정도 측정 (비선형 포함)📌 ..
2025.03.26 -
임베딩 벡터 - 5. 임베딩 벡터의 활용
📘 5. 임베딩 벡터의 활용🔹 5.1 유사도 검색 (예: 벡터 검색, 검색엔진)✅ 활용 목적임베딩 벡터 간의 거리 또는 각도를 기준으로 가장 의미적으로 유사한 항목을 빠르게 찾아냅니다.💡 대표 예시텍스트 검색: 질문 ↔ 문서 간 의미 유사도이미지 검색: 유사 이미지 탐색FAQ 추천: 질문 입력 → 가장 유사한 질문-답변 페어 출력⚙️ 기술 요소유사도 지표: 코사인 유사도, 내적(Dot Product), L2 거리벡터 검색 도구: FAISS, Annoy, ScaNN, Milvus, Pinecone⚠️ 한계 및 주의사항고차원 벡터일수록 탐색 비용 증가 → 근사 최근접 검색 필요동일 단어라도 문맥에 따라 의미 다름 → 정확도 저하 가능단순 유사도 계산이 항상 의미적 일치를 보장하지는 않음🔹 5.2 분류..
2025.03.26