데이터 사이언스 - 요약 정리

2025. 3. 20. 17:34ㆍ데이터 분석/데이터 사이언스

데이터 사이언스 요약 정리

데이터 사이언스는 데이터를 활용하여 인사이트를 도출하고, 문제를 해결하는 학문이다.
이를 위해 프로그래밍, 통계, 머신러닝, 데이터베이스 활용, 빅데이터 처리, 모델 배포 및 유지보수 등의 개념을 학습해야 한다.
다음은 데이터 사이언스 학습 과정의 핵심 개념을 정리한 내용이다.

1. 데이터 사이언스 개요

데이터 사이언스란? 데이터를 수집, 분석, 모델링하여 가치 있는 인사이트를 도출하는 과정
데이터 분석과 머신러닝의 차이
- 데이터 분석: 패턴을 찾고, 통계를 기반으로 데이터 해석
- 머신러닝: 데이터에서 자동으로 학습하여 예측 및 의사 결정을 수행
활용 분야: 금융, 의료, 마케팅, 자율주행, 추천 시스템 등

2. 파이썬을 활용한 데이터 분석 기초

(1) Python 기본 문법

자료형: 정수(int), 실수(float), 문자열(str), 리스트(list), 딕셔너리(dict) 등
조건문 & 반복문: if-else, for, while
함수 & 클래스: def function(), class ClassName:

(2) 필수 라이브러리

라이브러리	설명
NumPy	다차원 배열 연산, 선형대수
Pandas	데이터프레임 조작 및 분석
Matplotlib & Seaborn	데이터 시각화
Scikit-learn	머신러닝 모델 구현

(3) Jupyter Notebook & Google Colab 사용법

Jupyter Notebook → 코드 실행, 시각화, 문서화 기능 제공
Google Colab → 클라우드 기반 Python 실행 환경, GPU 지원

3. 데이터 전처리 및 탐색

(1) 데이터 불러오기 및 저장

CSV, Excel, JSON, SQL 데이터 불러오기 및 저장

(2) 결측치 및 이상치 처리

dropna(), fillna(), SimpleImputer() 활용
이상치 탐색: IQR, Z-score, Boxplot 활용

(3) 데이터 변환 및 인코딩

정규화: MinMaxScaler(), 표준화: StandardScaler()
범주형 데이터 인코딩: Label Encoding, One-Hot Encoding

4. 데이터 분석 및 시각화

(1) 데이터 기본 분석

describe(), info(), value_counts() 활용
데이터 분포 확인 → Histogram, Boxplot

(2) 데이터 시각화

Matplotlib & Seaborn 활용
변수 간 관계 분석 → pairplot(), heatmap()

(3) 상관관계 분석

피어슨 상관계수 → 선형 관계 분석
스피어만 상관계수 → 비선형 관계 분석
다중공선성 (VIF) 분석 → 다중 회귀 분석 시 필수

5. 통계 기초 및 확률 분포

(1) 기초 통계 개념

평균, 중앙값, 최빈값
분산, 표준편차

(2) 확률 및 확률분포

정규분포(Normal Distribution) → 대부분의 자연현상이 따르는 분포
이항분포(Binomial Distribution) → 두 가지 결과(성공/실패)로 나뉘는 경우
포아송 분포(Poisson Distribution) → 단위 시간 내 발생 횟수 분석

(3) 통계적 가설 검정

귀무가설(H₀) vs 대립가설(H₁)
t-test, ANOVA, 카이제곱 검정 활용

6. 머신러닝 개요 및 모델 구축

(1) 머신러닝 개념 및 기본 용어

지도학습 vs 비지도학습
- 지도학습: 입력 → 출력(정답) 데이터 학습
- 비지도학습: 정답 없이 데이터 패턴 학습
모델 학습 과정
- Training → Validation → Testing
- 데이터 분할: Train-Test Split, Cross Validation

(2) 머신러닝 라이브러리 (scikit-learn)

Pipeline을 활용한 데이터 처리
모델 저장 및 로드 (joblib, pickle)

(3) 회귀 및 분류 모델

모델 유형	알고리즘
회귀 모델	선형 회귀, 다중 선형 회귀, Lasso, Ridge
분류 모델	로지스틱 회귀, KNN, 결정 트리, 랜덤 포레스트, SVM
모델 평가	RMSE, MAE, R² Score, Precision, Recall, F1-Score

7. 고급 머신러닝 기법

(1) 비지도 학습

군집 분석 (Clustering) → K-Means, 계층적 클러스터링
차원 축소 (Dimensionality Reduction) → PCA, t-SNE, UMAP

(2) 딥러닝 및 신경망

인공신경망 (ANN) → ReLU, Sigmoid, Softmax
딥러닝 프레임워크 (TensorFlow, PyTorch, Keras)
CNN (합성곱 신경망) / RNN (순환 신경망)

(3) 자연어 처리 (NLP)

텍스트 전처리 → 토큰화, 불용어 제거, 형태소 분석
Word Embedding → Word2Vec, GloVe, FastText
감성 분석 → LSTM, BERT

8. 시계열 분석 및 예측

이동 평균 분석 → 추세 및 계절성 분석
ARIMA, SARIMA 모델 → 시계열 예측
LSTM을 활용한 시계열 예측

9. 데이터베이스 및 빅데이터 처리

(1) 데이터베이스 활용

SQL 기본 문법 → SELECT, JOIN, GROUP BY
NoSQL 개요 → MongoDB, Hadoop

(2) 대용량 데이터 처리

Dask → Pandas 확장형 라이브러리, 병렬 연산
Apache Spark → 분산 데이터 처리 프레임워크

10. 머신러닝 모델 배포 및 운영

(1) API 배포

Flask & FastAPI를 활용한 모델 API 배포
모델 성능 모니터링 → Prometheus, Grafana

(2) 실전 프로젝트 수행

비즈니스 문제 정의 → 데이터 수집 → 모델 구축 → 배포 및 유지보수
모델 운영 및 데이터 드리프트 감지

결론

✅ 데이터 사이언스는 데이터 분석, 머신러닝, 모델 배포까지 포함하는 종합적인 학문
✅ Python과 주요 라이브러리를 활용하여 데이터 처리 및 모델 개발 가능
✅ SQL, NoSQL, 빅데이터 처리 기술을 익히면 확장성이 높은 분석 가능
✅ 모델 배포 후에도 지속적인 유지보수와 성능 모니터링이 필수적

데이터 사이언스를 체계적으로 학습하면 실제 산업에서 데이터 기반 의사 결정을 효과적으로 수행할 수 있다.

'데이터 분석 > 데이터 사이언스' 카테고리의 다른 글

비구조화(비정형) 데이터 (Unstructured Data) (0)	2025.03.20
구조화된(정형) 데이터(Structured Data) (0)	2025.03.20
데이터 사이언스 - 13. 모델 배포 및 실무 프로젝트 (13.1 머신러닝 모델 배포 (Machine Learning Model Deployment)) (0)	2025.03.20
데이터 사이언스 - 13. 모델 배포 및 실무 프로젝트 (13.1 머신러닝 모델 배포 (Machine Learning Model Deployment)) (0)	2025.03.20
데이터 사이언스 - 12. 데이터 엔지니어링 및 빅데이터 (12.2 대용량 데이터 처리 (Big Data Processing)) (0)	2025.03.20

개발_노트

태그

최근글

댓글

공지사항

아카이브