데이터 전처리(18)
-
데이터 사이언스 - 13. 모델 배포 및 실무 프로젝트 (13.1 머신러닝 모델 배포 (Machine Learning Model Deployment))
13.2 실전 프로젝트 수행 (Real-World Machine Learning Project Execution)머신러닝 프로젝트는 단순한 모델 개발이 아니라 비즈니스 문제 해결을 목표로 진행된다.실제 서비스에서 성공적인 머신러닝 프로젝트를 수행하려면, 문제 정의 → 데이터 수집 → 모델 구축 → 배포 및 유지보수의 전체 프로세스를 이해하고 실행해야 한다.이 장에서는 비즈니스 문제 정의부터 데이터 처리, 모델 구축, 배포 및 유지보수까지 실전 프로젝트 수행 과정을 설명한다.13.2.1 비즈니스 문제 정의 (Defining the Business Problem)1) 머신러닝 프로젝트의 핵심 목표실제 비즈니스 문제를 해결하기 위한 모델 개발데이터 기반 의사결정을 통해 비즈니스 가치를 창출모델의 성능뿐만 아니..
2025.03.20 -
데이터 사이언스 - 6. 머신러닝 기초 (6.2 머신러닝 라이브러리 (scikit-learn))
6.2 머신러닝 라이브러리 (scikit-learn)Scikit-learn은 머신러닝을 위한 가장 널리 사용되는 파이썬 라이브러리로,데이터 전처리, 모델 학습, 평가, 하이퍼파라미터 튜닝 등의 다양한 기능을 제공한다.이 장에서는 Scikit-learn을 활용한 데이터 처리(Pipeline)와 모델 저장(joblib, pickle) 방법을 다룬다.6.2.1 Scikit-learn 개요✅ Scikit-learn 특징다양한 머신러닝 알고리즘 제공 (선형 회귀, 랜덤 포레스트, SVM 등)데이터 전처리 기능 지원 (결측치 처리, 스케일링, 인코딩 등)모델 평가 및 하이퍼파라미터 튜닝 지원✅ 설치 방법pip install scikit-learn✅ Scikit-learn 기본 사용 흐름from sklearn.mod..
2025.03.20 -
데이터 사이언스 - 3. 데이터 핸들링과 전처리 (3.5 범주형 데이터 인코딩)
3.5 범주형 데이터 인코딩머신러닝 모델은 수치형 데이터를 입력으로 사용하므로 범주형(Categorical) 데이터를 숫자로 변환하는 과정이 필요하다.이 과정을 범주형 데이터 인코딩(Categorical Data Encoding)이라고 하며, 대표적인 방법으로 Label Encoding, One-Hot Encoding이 있다.이 장에서는 Label Encoding과 One-Hot Encoding의 차이점과 활용 방법을 다루고, sklearn.preprocessing을 활용하여 인코딩을 적용하는 방법을 설명한다.3.5.1 범주형 데이터란?범주형 데이터(Categorical Data)는 연속적인 값이 아닌, 특정 그룹이나 범주를 나타내는 데이터이다.예를 들어,색상: {빨강, 파랑, 초록}도시: {서울, 부산..
2025.03.20 -
데이터 사이언스 - 3. 데이터 핸들링과 전처리 (3.4 데이터 정규화 및 변환)
3.4 데이터 정규화 및 변환데이터 정규화(Normalization) 및 변환(Transformation)은 데이터의 스케일을 조정하여 모델의 학습 성능을 향상시키고, 분석 결과의 신뢰성을 높이는 과정이다.머신러닝 및 데이터 분석에서는 변수를 표준화하여 특정 변수의 영향력이 과도하게 커지는 문제를 방지해야 한다.이 장에서는 MinMaxScaler, StandardScaler, 로그 변환(Log Transformation), 정규화(Normalization) 기법을 다룬다.3.4.1 데이터 정규화와 변환 개념✅ 정규화 (Normalization)데이터 값을 0과 1 사이의 범위로 조정하여 상대적인 크기를 유지이상치(Outlier)에 민감할 수 있음MinMaxScaler를 사용하여 구현✅ 표준화 (Stand..
2025.03.20 -
데이터 사이언스 - 3. 데이터 핸들링과 전처리 (3.3 이상치 탐색 및 처리)
3.3 이상치 탐색 및 처리이상치(Outlier)는 다른 데이터와 크게 벗어난 값으로, 데이터 분석 및 모델 성능에 영향을 줄 수 있다.이상치는 측정 오류, 데이터 입력 오류, 특이한 현상으로 인해 발생할 수 있으며, 적절한 처리가 필요하다.이 장에서는 이상치를 탐색하는 방법(IQR, Z-score, Boxplot)과 처리 방법(삭제, 대체, 변환)을 다룬다.3.3.1 이상치 탐색 (Outlier Detection)이상치를 탐색하는 주요 방법으로 사분위수 범위(IQR), Z-score, Boxplot을 활용할 수 있다.① 사분위수 범위(IQR, Interquartile Range) 활용IQR은 데이터의 1사분위수(Q1)와 3사분위수(Q3) 사이의 범위를 이용하여 이상치를 탐색하는 방법이다.Q1 (1사분위..
2025.03.20 -
데이터 사이언스 - 3. 데이터 핸들링과 전처리 (3.2 결측치 처리 (Missing Values))
3.2 결측치 처리 (Missing Values)데이터 분석을 수행할 때 가장 먼저 해야 할 작업 중 하나가 결측치(Missing Values) 처리이다.결측치는 데이터셋에 누락된 값이 포함된 경우를 의미하며, 잘못된 분석 결과를 초래할 수 있으므로 적절히 처리해야 한다.이 장에서는 결측치를 찾고, 제거(dropna), 대체(fillna), 그리고 머신러닝 기반으로 처리(SimpleImputer)를 활용하는 방법을 다룬다.또한, 결측치를 시각적으로 분석하는 방법도 소개한다.3.2.1 결측치 찾기 및 확인결측치를 확인하는 기본적인 방법은 isnull() 또는 info()를 활용하는 것이다.import pandas as pdimport numpy as np# 샘플 데이터 생성data = { "Name"..
2025.03.20