프로그래밍 (확장)(36)
-
Pandas - 7. 데이터 병합 및 결합
Pandas에서는 여러 개의 데이터프레임을 하나로 병합하거나 결합할 때 다양한 방법을 제공합니다. 이 문서에서는 concat()을 활용한 데이터 연결, merge()를 활용한 병합, 그리고 성능 최적화를 위한 기법들을 설명합니다.1. 데이터 연결 (concat)1.1 수직 결합import pandas as pd# 샘플 데이터 생성df1 = pd.DataFrame({'이름': ['철수', '영희'], '성적': [85, 90]})df2 = pd.DataFrame({'이름': ['민수', '지연'], '성적': [88, 76]})# 수직 결합df_concat = pd.concat([df1, df2], ignore_index=True)print(df_concat)1.2 수평 결합 시 인덱스 불일치 문제 해결✅..
2025.02.08 -
Pandas - 6. 데이터 연산
Pandas에서는 다양한 데이터 연산을 수행할 수 있습니다. 이 문서에서는 기본적인 수치 연산부터 문자열 데이터 처리, 그룹화 및 집계, 윈도우 연산까지 초보자가 이해하기 쉽게 설명하고, 예제와 함께 각 개념을 소개합니다.1. 수치 연산Pandas를 이용하면 데이터프레임 내에서 다양한 수치 연산을 쉽게 수행할 수 있습니다.1.1 기본 연산 (합계, 평균, 최소/최대값)import pandas as pdimport numpy as np# 샘플 데이터 생성data = {'이름': ['철수', '영희', '민수', '지연', '현우'], '국어': [90, 85, 88, 76, 95], '수학': [80, 90, 95, 85, 100]}df = pd.DataFrame(data)# 기본..
2025.02.08 -
Pandas - 5. 데이터 전처리
데이터 전처리데이터 전처리는 데이터 분석과 모델링의 필수 과정으로, 데이터의 품질을 향상시키고 분석 결과의 신뢰성을 높입니다. 이 문서에서는 Pandas를 활용한 데이터 전처리 기법을 초보자가 이해하기 쉽게 설명하고, 다양한 예제와 함께 각 개념을 소개합니다.1. 결측치 처리⚠️ Tip: 결측치를 처리하기 전, 데이터에서 결측치가 발생한 이유를 분석하는 것이 중요합니다. 단순한 입력 오류인지, 특정 패턴이 있는지 확인하세요.1.1 결측치 확인 (isnull, notnull)import pandas as pdimport numpy as np# 샘플 데이터 생성data = {'이름': ['철수', '영희', '민수', np.nan, '현우'], '나이': [25, np.nan, 22, 27, n..
2025.02.04 -
Pandas - 4. 데이터 선택 및 필터링
Pandas에서 데이터를 선택하고 필터링하는 방법은 데이터 분석의 핵심 요소입니다. 이 문서에서는 iloc, loc, at, iat 등의 기본적인 데이터 선택 방법부터 조건부 필터링, 고급 인덱싱, 대용량 데이터 처리까지 초보자가 이해하기 쉽게 설명하고 예제를 포함하였습니다.1. 샘플 데이터 준비이 문서의 모든 예제에서 사용할 일관된 데이터프레임을 생성합니다.import pandas as pd# 샘플 데이터 생성data = { '이름': ['철수', '영희', '민수', '지연', '현우'], '나이': [25, 30, 22, 27, 35], '도시': ['서울', '부산', '대구', '광주', '서울'], '점수': [90, 85, 88, 76, 95]}df = pd.DataFr..
2025.02.04 -
Pandas - 3. 데이터 입출력 (I/O)
Pandas는 다양한 형식의 데이터를 쉽게 읽고 쓸 수 있는 강력한 데이터 입출력(I/O) 기능을 제공합니다. 이 문서에서는 파일 입출력의 기본적인 사용법과 주요 옵션을 초보자가 이해하기 쉽게 상세히 설명하고, 각 파일 형식에 대한 예제를 포함합니다.1. 파일 읽기1.1 CSV 파일 읽기 (read_csv)CSV 파일은 데이터 저장에 널리 사용되는 형식으로, Pandas의 read_csv 함수는 이를 간단하게 읽을 수 있습니다.기본 사용법import pandas as pd# CSV 파일 읽기try: df = pd.read_csv('example.csv') print(df)except FileNotFoundError as e: print(f"에러 발생: {e}")주요 옵션sep: 구분자를 ..
2025.01.24 -
Pandas - 2. 데이터 구조
Pandas는 데이터를 효율적으로 분석하고 조작하기 위해 두 가지 주요 데이터 구조인 Series와 DataFrame을 제공합니다. 이 문서에서는 초보자도 쉽게 이해할 수 있도록 각 데이터 구조의 정의, 생성 방법, 속성, 활용 방법을 예제와 함께 상세히 설명합니다.1. Series1.1 Series의 정의와 특성정의: Series는 1차원 데이터 구조로, 값(value)과 인덱스(index)의 결합 형태입니다.특성:Python의 리스트, 딕셔너리, Numpy 배열과 유사하지만, 데이터에 레이블(index)을 부여할 수 있는 강력한 기능을 제공합니다.같은 데이터 타입의 값들의 집합이며, 인덱스를 통해 데이터 접근이 용이합니다.1.2 Series 생성 방법1. 리스트로 생성import pandas as p..
2025.01.24