Framework(12)
-
CUDA - 9장. CUDA와 병렬 프로그래밍의 미래
🌐 9장. CUDA와 병렬 프로그래밍의 미래🎯 학습 목표이 장에서는 CUDA 기술의 최신 동향, GPU 병렬 컴퓨팅의 미래 전망, 실무 적용 사례를 통해지금까지의 학습을 마무리하며, 실전 활용과 향후 학습의 방향을 제시합니다.📘 9.1 CUDA 최신 기술 및 아키텍처 발전⏳ CUDA 기술 로드맵버전주요 기술CUDA 9.xVolta 아키텍처, Tensor Core 도입CUDA 10.xCUDA Graphs 초기 도입, Nsight SystemsCUDA 11.xAmpere, FP64 Tensor Core, 구조적 희소성CUDA 12.xHopper 아키텍처, cuBLASLt, MIG 강화CUDA 13.x (예정)Blackwell 기반, FP8 연산 최적화, AI/LLM 특화GPU 아키텍처 흐름: Keple..
2025.03.29 -
CUDA - 8장. 디버깅 및 성능 분석
🛠️ 8장. 디버깅 및 성능 분석🎯 학습 목표CUDA 개발 과정에서 발생하는 오류를 빠르게 파악하고,성능 병목을 식별하여 효과적으로 최적화하는 디버깅 및 분석 역량을 기릅니다.🧭 전체 구성 요약항목핵심 내용8.1CUDA 오류 디버깅 기법 (cudaErrorCheck, cuda-memcheck, Visual Studio 등)8.2Nsight 도구 사용법 (Systems & Compute)8.3병목 원인 분석 및 최적화 전략📘 8.1 CUDA 오류 디버깅 기법✅ 에러 체크 매크로#define CUDA_CHECK(call) { \ cudaError_t err = call; \ if..
2025.03.29 -
CUDA - 7장. 실전 예제 및 프로젝트
🧪 7장. 실전 예제 및 프로젝트🎯 학습 목표이 장에서는 CUDA의 핵심 기능과 최적화 기법을 실제 문제 해결에 적용합니다.직접 코드를 작성하고 성능을 비교하며, CPU 병렬 기술(OpenMP)과의 차이도 실습합니다.✅ 전체 구성 요약항목핵심 내용확장 과제7.1행렬 곱셈 구현 및 최적화Tensor Core 적용, cuBLAS 비교7.2이미지 처리 (그레이스케일, 필터링)Sobel 필터, 텍스처 메모리 활용7.3딥러닝 연동PyTorch 커널 확장, cuDNN 수동 호출7.4CUDA vs OpenMP 성능 비교스레드 조정, SIMD 병렬화 추가 실험📘 7.1 행렬 곱셈 구현 및 최적화🎯 목표CUDA로 기본 행렬 곱셈을 구현공유 메모리, Coalescing 등을 적용하여 속도 향상🖼️ 구조 다이어그램..
2025.03.29 -
CUDA - 6장. 고급 CUDA 기능
🚀 6장. 고급 CUDA 기능🎯 학습 목표이 장에서는 CUDA의 고급 기능과 NVIDIA 라이브러리를 통해 GPU 프로그램의 생산성과 성능을 극대화하는 방법을 학습합니다.기능 간 관계를 시각적으로 이해하고, 실무에서 어떤 상황에 어떤 기능을 활용할 수 있는지 판단하는 것이 목표입니다.📌 CUDA 고급 기능 관계도 [ CUDA Core API ] │ ┌───────────┼────────────┐ ▼ ▼ ▼동적 병렬 처리 Unified Memory Tensor Core (복잡 연산) (자동 메모리) (딥러닝 가속) │ │ │ └───..
2025.03.29 -
CUDA - 5장. CUDA 최적화 기법
⚡ 5장. CUDA 최적화 기법🎯 학습 목표이 장에서는 CUDA 프로그램의 성능을 극대화하기 위한 핵심 전략을 학습합니다.공유 메모리, 스레드 최적화, 메모리 정렬, 연산 최소화, 스트리밍, 텍스처 메모리 등 실전 중심의 최적화 기법을 익히고 적용합니다.🧭 최적화 전략 미리보기항목설명난이도공유 메모리블록 내 연산 캐싱🟢 초급메모리 정렬연속된 주소 접근🟢 초급워프 최적화분기 제거, 32개 단위 실행🟡 중급연산 최소화중복 제거, 사전 계산🟢 초급스트리밍복수 작업 동시 처리🟡 중급텍스처 메모리이미지/2D 연산 특화 캐시🔴 고급5.1 메모리 최적화 🟢✅ 공유 메모리 활용공유 메모리는 블록 내 스레드 간 빠른 데이터 공유에 사용됩니다.__shared__ float tile[256];int idx ..
2025.03.28 -
CUDA - 4장. CUDA 프로그래밍 기본
💻 4장. CUDA 프로그래밍 기본🎯 학습 목표이 장에서는 CUDA 프로그래밍의 핵심 실습 내용을 단계별로 익히며,실제 코드 작성, 실행, 메모리 처리, 동기화, 성능 측정 및 기본 최적화 기법을 배웁니다.4.1 CUDA 코드 작성 및 실행 방법🧾 기본 코드 예제#include __global__ void helloFromGPU() { printf("Hello from GPU thread %d\n", threadIdx.x);}int main() { helloFromGPU>>(); // 1블록, 4스레드 cudaDeviceSynchronize(); // GPU 연산 완료 대기 return 0;}⚙️ 빌드 및 실행nvcc hello.cu -..
2025.03.28