데이터 전처리(18)
-
임베딩 벡터 - 8. 임베딩 벡터 활용 시 주의사항
📘 8. 임베딩 벡터 활용 시 주의사항🔹 8.1 벡터 차원 수의 선택✅ 핵심 개념임베딩의 차원 수는 모델의 표현력과 계산 효율성에 영향을 미치는 중요한 하이퍼파라미터입니다.💡 가이드라인너무 낮으면 → 정보 손실 가능너무 높으면 → 계산량 증가, 과적합 위험📌 실무 팁Word2Vec: 100~300차원BERT 임베딩: 보통 768차원문장/문서 단위에서는 384~768차원이 많이 사용됨🔹 8.2 편향(Bias) 문제✅ 핵심 개념임베딩은 학습 데이터에 포함된 사회적·문화적 편향을 그대로 반영할 수 있습니다.💡 예시“doctor” → 남성 벡터에 더 가까움“nurse” → 여성 벡터에 가까움📌 대응 전략중립화 알고리즘 (Debiasing) 적용편향 검사 데이터셋 (WEAT 등) 활용다양하고 균형 잡..
2025.03.26 -
데이터 사이언티스트 - 데이터 사이언티스트의 업무 프로세스 예시
📌 데이터 사이언티스트의 업무 프로세스 예시데이터 사이언티스트는 비즈니스 목표를 데이터 기반으로 실현하기 위해 분석, 모델링, 배포, 운영 등 전 과정을 체계적으로 수행합니다. 이 과정은 단발성이 아닌 반복적 루프이며, 각 단계는 서로 밀접하게 연결되어 있습니다.① 비즈니스 문제에서 데이터 문제로의 전환🎯 목적추상적인 비즈니스 이슈를 데이터 기반 분석 문제로 구조화🔍 주요 활동이해관계자와 미팅하여 문제 상황 파악핵심 KPI와 성과 지표 정의분석 유형 결정 (예: 분류, 회귀, 군집화 등)해결 가능한 문제로 전환 (예: 고객 이탈 예측 → 이진 분류 문제)🧩 예시마케팅팀 요청: "고객 이탈률이 늘고 있어요"데이터 사이언티스트 분석: "‘최근 구매일’, ‘총 구매횟수’ 등 데이터를 기준으로 이탈 가능..
2025.03.22 -
데이터 사이언티스트 - 데이터 사이언티스트의 업무
📌 데이터 사이언티스트의 업무① 문제 정의 및 분석데이터 분석의 출발점은 비즈니스 문제를 명확하게 정의하고 분석 가능한 문제로 변환하는 것입니다.실제 사례온라인 쇼핑몰에서 '최근 고객 이탈률이 높아졌다'는 문제를 발견하고, 이를 '이탈할 가능성이 높은 고객 예측'으로 분석 가능한 데이터 문제로 변환했습니다.도전 과제 및 해결 방안과제: 비즈니스 문제가 불명확하거나 너무 광범위함.해결 방안: 명확한 목표 설정을 위해 비즈니스 담당자와 적극적으로 소통하여 문제를 좁히고, 가설을 세워 구체적인 분석 목표로 정의합니다.산업별 차이점금융: 신용 리스크 예측, 대출 상환 가능성 분석 등의료: 질병 조기 예측, 환자 재입원률 분석 등소매업: 고객 이탈 예측, 상품 판매량 예측 등② 데이터 수집 및 전처리데이터를 수..
2025.03.21 -
데이터 분석 (Data Analysis & Exploration) - 요약 정리
📌 데이터 분석 (Data Analysis & Exploration) 요약 정리데이터 분석은 수집된 데이터를 탐색하고 패턴을 발견하며, 의미 있는 인사이트를 도출하는 과정입니다.이를 통해 의사 결정을 지원하고, 비즈니스 성과를 향상시키며, 머신러닝과 연계하여 자동화된 분석을 수행할 수 있습니다.1. 데이터 분석 개요✅ 데이터 분석이란? → 데이터를 정리하고 가공하여 패턴을 찾고 의미를 해석하는 과정✅ 주요 유형설명적 분석 (Descriptive Analytics) → 과거 데이터 요약진단적 분석 (Diagnostic Analytics) → 원인 분석예측적 분석 (Predictive Analytics) → 미래 예측처방적 분석 (Prescriptive Analytics) → 최적의 의사 결정 지원2. 데..
2025.03.20 -
데이터 분석 (Data Analysis & Exploration) - 7. 실전 데이터 분석 사례 (Real-World Data Analysis Cases)
7. 실전 데이터 분석 사례 (Real-World Data Analysis Cases)이제까지 배운 데이터 분석 기법을 실제 데이터에 적용하는 과정은 매우 중요합니다. 실제 데이터셋을 활용하여 분석하는 방법을 익히면, 다양한 비즈니스 문제를 해결하고 인사이트를 도출할 수 있습니다.이 섹션에서는 실제 데이터 분석 과정, 예제 프로젝트, 비즈니스 활용 사례를 다룹니다.7.1 실제 데이터셋을 활용한 분석 과정실전 데이터 분석은 데이터 수집 → 데이터 전처리 → 탐색적 데이터 분석(EDA) → 모델링 → 인사이트 도출의 단계를 따릅니다.1) 데이터 분석 프로세스단계설명예제데이터 수집CSV, 데이터베이스, API, 웹 스크래핑 활용고객 구매 데이터, 의료 데이터데이터 전처리결측값 처리, 이상치 제거, 정규화Pan..
2025.03.20 -
데이터 사이언스 - 요약 정리
데이터 사이언스 요약 정리데이터 사이언스는 데이터를 활용하여 인사이트를 도출하고, 문제를 해결하는 학문이다.이를 위해 프로그래밍, 통계, 머신러닝, 데이터베이스 활용, 빅데이터 처리, 모델 배포 및 유지보수 등의 개념을 학습해야 한다.다음은 데이터 사이언스 학습 과정의 핵심 개념을 정리한 내용이다.1. 데이터 사이언스 개요데이터 사이언스란? 데이터를 수집, 분석, 모델링하여 가치 있는 인사이트를 도출하는 과정데이터 분석과 머신러닝의 차이데이터 분석: 패턴을 찾고, 통계를 기반으로 데이터 해석머신러닝: 데이터에서 자동으로 학습하여 예측 및 의사 결정을 수행활용 분야: 금융, 의료, 마케팅, 자율주행, 추천 시스템 등2. 파이썬을 활용한 데이터 분석 기초(1) Python 기본 문법자료형: 정수(int), ..
2025.03.20