Python(44)
-
데이터 사이언티스트 - 데이터 사이언티스트가 갖춰야 할 핵심 역량 (기술적 역량)
📌 데이터 사이언티스트의 기술적 역량데이터 사이언티스트는 데이터를 활용해 인사이트를 도출하고 모델을 구축하기 위해 다양한 기술 스택을 익히고 사용합니다. 이 과정에서 클라우드 환경의 활용 능력과 각 기술에 대한 숙련도도 점점 중요해지고 있습니다.① 프로그래밍 언어 및 도구주요 기술Python: 데이터 분석, 모델링, 자동화에 가장 널리 사용됨R: 통계 기반 분석과 시각화에서 강점Jupyter Notebook, Colab: 실험 및 리포팅 환경기술 숙련도 레벨수준특징초급기본 문법 이해, Pandas로 간단한 데이터 조작 가능중급복잡한 분석 로직 구현, Scikit-learn으로 모델 개발 가능고급객체지향 프로그래밍, 파이프라인 구축, 대규모 데이터 분석 자동화 가능② 데이터베이스 및 빅데이터 기술주요 기..
2025.03.21 -
데이터 분석 (Data Analysis & Exploration) - 6. 데이터 분석 도구 및 라이브러리 (Data Analysis Tools & Libraries)
6. 데이터 분석 도구 및 라이브러리 (Data Analysis Tools & Libraries)데이터 분석을 효과적으로 수행하려면 적절한 도구와 라이브러리를 활용하는 것이 중요합니다. Python, R, SQL, 그리고 BI 도구를 사용하면 데이터 조작, 분석, 시각화 및 보고서 작성까지 다양한 작업을 수행할 수 있습니다.6.1 Python 기반 데이터 분석 도구Python은 데이터 분석에서 가장 많이 사용되는 프로그래밍 언어 중 하나로, 다양한 라이브러리를 통해 데이터를 조작하고 시각화하며 분석할 수 있습니다.1) Pandas: 데이터 조작 및 분석Pandas는 표 형태(데이터프레임)의 데이터를 다루는 대표적인 라이브러리입니다.📌 주요 기능✅ CSV, Excel, SQL 데이터 로드✅ 데이터 필터링..
2025.03.20 -
데이터 사이언스 - 12. 데이터 엔지니어링 및 빅데이터 (12.1 데이터베이스 활용 (Database Utilization))
12.1 데이터베이스 활용 (Database Utilization)데이터 분석과 머신러닝 모델 구축에서는 대량의 데이터를 효율적으로 저장하고 관리할 수 있는 데이터베이스(Database)가 필수적이다.데이터베이스는 구조화된 SQL 데이터베이스와 비구조화된 NoSQL 데이터베이스로 나뉘며,이 장에서는 SQL과 NoSQL의 개념 및 활용 방법을 다룬다.12.1.1 SQL 기초 (Structured Query Language, 관계형 데이터베이스)1) SQL이란?SQL(Structured Query Language)은 관계형 데이터베이스(RDBMS)에서 데이터를 관리하기 위한 표준 언어이다.MySQL, PostgreSQL, SQLite, MS SQL Server, Oracle 등의 관계형 데이터베이스에서 사용..
2025.03.20 -
데이터 사이언스 - 11. 시계열 데이터 분석 (11.2 시계열 모델링 (Time Series Modeling))
11.2 시계열 모델링 (Time Series Modeling)시계열 모델링은 시간에 따라 변하는 데이터를 분석하고 미래를 예측하는 기법이다.전통적인 통계 모델인 ARIMA, SARIMA와 딥러닝을 활용한 LSTM 모델이 대표적인 방법이다.이 장에서는 ARIMA, SARIMA 모델과 LSTM을 활용한 시계열 예측 기법을 다룬다.11.2.1 ARIMA 모델 (AutoRegressive Integrated Moving Average)1) ARIMA란?ARIMA(자기회귀 누적 이동 평균)는 시계열 데이터를 기반으로 미래 값을 예측하는 대표적인 통계적 모델이다.이 모델은 자기회귀(AR), 차분(I), 이동 평균(MA)의 조합으로 시계열 데이터를 분석한다.✅ ARIMA 모델 구성 요소AR (AutoRegressi..
2025.03.20 -
데이터 사이언스 - 11. 시계열 데이터 분석 (11.1 시계열 데이터 개념 (Time Series Data Basics))
11.1 시계열 데이터 개념 (Time Series Data Basics)시계열 데이터(Time Series Data)는 시간에 따라 변하는 데이터로, 일정한 간격으로 수집되는 값들의 연속적인 기록이다.금융 시장, 기상 데이터, 센서 데이터, 판매 예측 등 다양한 산업 분야에서 분석이 필요하다.이 장에서는 시계열 데이터의 기본 구조와 주요 개념(이동 평균 및 계절성 분석)을 다룬다.11.1.1 시계열 데이터 구조1) 시계열 데이터란?시간 순서(time-indexed)로 정렬된 데이터과거 데이터를 바탕으로 미래 값을 예측하는 분석이 중요정형 데이터(숫자로 표현 가능) 형태로 주로 수집됨📌 시계열 데이터 예시 (주가 데이터)날짜주가 (Close)2023-01-01105.22023-01-02106.52023..
2025.03.20 -
Edge AI - 2. Edge AI 개발을 위한 기초 준비 (2-1. 필수 기술 개요)
📌 2-1. 필수 기술 개요Edge AI 개발을 위해서는 머신러닝 & 딥러닝 기초, 경량 AI 모델, Python 프로그래밍 등의 핵심 기술을 익혀야 합니다.이러한 기술을 이해하면 엣지 디바이스에서 AI 모델을 최적화하고 실행할 수 있습니다.🌟 1. 머신러닝 & 딥러닝 기초 (Machine Learning & Deep Learning Basics)Edge AI는 머신러닝과 딥러닝 모델을 경량화하여 디바이스에서 실행하는 기술입니다.따라서 AI 모델의 기본 개념과 학습 방식을 이해하는 것이 중요합니다.✅ (1) 머신러닝 vs 딥러닝 구분 머신러닝 (ML)딥러닝 (DL)정의데이터에서 패턴을 학습하는 알고리즘다층 신경망(Neural Network)을 활용한 학습입력 데이터특징(Feature) 엔지니어링이 ..
2025.03.10