연산 실행 계층 구조 - LLM, 딥러닝, 병렬

쓸만한 Basic LLM (2025-07 기준)

Google 빼고는 모두 PyTorch 이며, PyTorch Framework에서 AWS 빼고는 모두 대부분 CUDA를 사용.

LLM	Hardware	주요 활용Compiler	병렬연산용 주요 SDK	주요 활용Framework (추정)
ChatGPT 4o 이상 (OpenAI)	NVIDIA A100 / H100	NVCC	CUDA	PyTorch
Grok 3 이상 (xAI)	NVIDIA H100	NVCC	CUDA	PyTorch
DeepSeek R-1 이상 (DeepSeek AI)	NVIDIA H800	NVCC	CUDA	PyTorch
Claude 3.7 이상 (Anthropic)	AWS NPU (Trainium / Inferentia)	AWS Neuron Compiler	AWS Neuron SDK	PyTorch
Gemini 2.5 이상 (Google)	Google TPU v4	XLA	Google Cloud TPU SDK	JAX, Tensorflow

Python 주요 Upper-level Library

라이브러리	용도	라이선스	제작사 / 관리 기관
NumPy	고성능 수치 연산 (배열, 선형대수, 벡터화 등)	BSD	NumPy 개발팀 (NumFOCUS 지원)
Pandas	시계열 및 표 형식 데이터 조작 및 분석	BSD	Pandas 개발팀 (NumFOCUS 지원)
Matplotlib	2D 그래프 및 시각화	PSF license	Matplotlib 개발팀 (NumFOCUS)
Seaborn	통계 기반 고수준 시각화	BSD	Nathaniel Smith 외 (Matplotlib 기반)
Plotly	인터랙티브 웹 기반 시각화	MIT	Plotly, Inc.
scikit-learn	머신러닝 및 데이터 마이닝 (모델 학습, 분류 등)	BSD	INRIA, SciKit 커뮤니티 (NumFOCUS)
statsmodels	통계 모델링 및 계량경제 분석 (OLS, ARIMA 등)	BSD	Skipper Seabold 외 (NumFOCUS)
Joblib	CPU 병렬 처리 및 결과 캐싱	BSD	Joblib 개발팀 (scikit-learn 연계)

병렬 연산 SDK

언어	CPU 연산 SDK/기술 (과거 → 현재)	GPU 연산 SDK/기술 (과거 → 현재)
C	- ANSI C stdlib - POSIX Thread (Pthreads) - OpenMP (1997~)	- CUDA (2007~) - OpenCL (2009~) - HIP/ROCm (2016~)
Java	- Java SE API (1996~) - `java.util.concurrent` (2004~)	- JOCL (OpenCL for Java) - JCuda (CUDA for Java) - Aparapi (Java to OpenCL)
Python	- stdlib (`threading`, `multiprocessing`) - `joblib`, `concurrent.futures`	- Numba (2012~) - PyCUDA (2009~) - CuPy (2015~) - PyTorch/TensorFlow (GPU 지원)

OpenCL (e.g. PyOpenCL for Python) 처럼,

AMD·Intel GPU 또는 FPGA 기반 클러스터 등 CUDA를 사용할 수 없는 환경에서,
최종 LLM 성능 최적화나 배포보다는,
하드웨어 기능 검증 PoC (Proof of Concept)을 위해 사용되는 SDK는 현실적으로, Base LLM 개발에 거의 도움이 안되거나, 도움이 되더라도 매우 오래 걸림.

SDK 이름	Open vs Exclusive	하드웨어 범용성 vs 독점성	병렬 연산 대상	주요 활용 분야 / LLM 특화 점유율
CUDA SDK	Exclusive	NVIDIA GPU 전용	GPU	NVIDIA가 AI 칩 시장의 90 % 이상을 차지 . 대부분의 LLM(예: GPT‑4, Llama, Falcon) 훈련·추론이 A100/H100 GPU + CUDA 스택 위에서 수행됨
AWS Neuron SDK	Exclusive	AWS Trainium/Inferentia	NPU	PyTorch-Neuron 등 AWS LLM 전용
Google Cloud TPU SDK	Exclusive	Google TPU 전용	TPU	Gemini 등 Google LLM 전용 최적화
XLA (Accelerator Compiler)	내부 표준용 IR 컴파일러	TPU, GPU, CPU 등 추상화 대상	연산 그래프 최적화	JAX, TensorFlow 내에서 활용되는 추상 계층
ROCm (HIP SDK)	Open but AMD-centric	AMD GPU	GPU	CUDA와 유사한 문법, AMD 전용. 주로 HPC/과학 컴퓨팅에 사용, LLM 논문·사례에서 드물게 언급
OpenCL	Open standard	다수 벤더 (CPU, GPU, FPGA 등)	Heterogeneous (CPU, GPU, DSP 등)	Khronos Group 표준이지만, PyTorch는 공식적으로 OpenCL 지원 계획 없음
Intel oneAPI (DPC++)	Open but Intel-centric	Intel CPU, GPU	CPU, GPU	SYCL 기반 병렬 연산, CPU 고성능 컴퓨팅 중심

NVIDIA 생태계의 특징

NVIDIA의 '독점기술'인 CUDA는 GPU를 위한 하드웨어 제어 프로그래밍을 위해 CPU의 계층 구조를 그대로 모방하여 GPU에 특화된 형태로 제공하는 SDK.

구분	CPU 프로그래밍 환경	GPU 프로그래밍 환경
하드웨어	CPU (ALU 등 논리회로)	GPU (CUDA 코어, Tensor 코어)
OS (Kernel)	Linux, Windows Kernel	GPU Driver (Kernel 포함)
Shell	bash, zsh, PowerShell	CUDA Toolkit
Assembly 코드	Assembly 코드	PTX (Parallel Thread Execution) 코드
Compiler	GCC, Clang (C언어), Python Compiler	NVCC (NVIDIA CUDA Compiler. CUDA 소스 코드 `.cu` 에서 CPU 코드는 분리하여 GCC와 같은 C compiler 활용)
Programming language	C, Python, JavaScript	CUDA C/C++, PyTorch 등

GPU 사용 병렬연산 계층 구조

기술 계층 1단 (최하단): Hardware

이름	설계 라이선스	Fabless 설계사	주요 하드웨어	주요 Foundry (2024년말 기준 최신 하드웨어)
GPU	독점 (hardware IP 보호)	NVIDIA	NVIDIA GPU	TSMC
Trainium/Inferentia	독점 (hardware IP 보호)	AWS	AWS NPU (Trainium / Inferentia)	TSMC
TPU	독점 (hardware IP 보호)	Google	Google TPU	TSMC
CPU	독점 (hardware IP 보호)	Intel, AMD	Intel, AMD	Intel Foundry Services (인하우스 제조), AMD CPU는 TSMC (EPYC 5세대)

기술 계층 2단 : Compiler

이름	용도	라이선스	제작사/관리	주요 하드웨어	관련 Framework
NVCC (CUDA Compiler)	CUDA C/C++ 코드를 NVIDIA GPU에서 실행 가능한 기계어로 컴파일	독점 (NVIDIA CUDA 포함)	NVIDIA	NVIDIA GPU	PyTorch, TensorFlow, MXNet 등의 CUDA 지원 버전
Neuron Compiler	TensorFlow, PyTorch, MXNet, XLA HLO 모델을 AWS Inferentia/Trainium용 실행 파일(NEFF)로 최적화·컴파일	독점 (AWS Neuron SDK)	AWS	AWS Inferentia, AWS Trainium	PyTorch-Neuron, TensorFlow-Neuron, MXNet-Neuron, JAX (XLA HLO)
XLA	TensorFlow/JAX 연산 그래프를 TPU·GPU·CPU·NPU 등 타겟별 하드웨어 최적화 코드로 컴파일	오픈소스 (Apache 2.0)	Google	TPU, GPU, CPU, NPU 등	TensorFlow, JAX (특히 TPU 통합)
TVM	다양한 프레임워크 모델(IR)을 받아 CPU·GPU·TPU·NPU 등 각 하드웨어에 최적화된 코드 생성	오픈소스 (Apache 2.0)	Apache TVM Project	CPU, GPU, TPU, NPU 등	프레임워크 불문, IR 교차 컴파일 및 최적화

다양한 Machine Learning Framework (TensorFlow, PyTorch, JAX 등)의 모델을 다양한 하드웨어 백엔드(CPU, GPU, TPU, NPU 등)에서 효율적으로 실행하기 위한 Compiler Framework. NVCC를 내부적으로 활용할 수 있지만, 더 넓은 범위와 목적을 가집니다.
ONNX (Open Neural Network Exchange): 서로 다른 딥러닝 프레임워크(PyTorch, TensorFlow, scikit-learn 등) 간에 모델을 교환하기 위한 Open Standard Format이며, 컴파일러가 아님. ONNX Format은 모델의 구조(레이어, 연산, 가중치 등)를 정의하는 일종의 설계도 또는 명세서이고, ONNX Runtime은 ONNX Format을 읽고 해석하여, GPU, CPU, Edge 장치 등 다양한 하드웨어에서 모델이 효율적으로 작동하도록 하는 엔진.
LLVM (Low Level Virtual Machine): 다양한 언어와 하드웨어를 위한 Compiler Infra Project.

기술 계층 3단 : SDK (Software Development Kit)

이름	용도	라이선스	제작사/관리	주요 하드웨어	관련 LLM
CUDA, TensorRT-LLM	GPU 연산 환경 제공, 추론 연산 최적화	독점	NVIDIA	NVIDIA GPU	GPT-4,
Neuron SDK	AWS 하드웨어용 SDK (학습/추론)	독점	AWS	AWS Trainium/Inferentia	Claude
Google Cloud TPU SDK	TPU 연산 환경 제공	독점	Google	Google TPU	Gemini

기술 계층 4단: Library (Lower-level)

특정 연산(행렬, 컨볼루션, FFT 등)을 하드웨어에 최적화하여 제공하는 라이브러리

이름	용도	라이선스	제작사/관리	주요 하드웨어
cuDNN	딥러닝 컨볼루션·풀링·정규화 등 기본 연산 최적화	독점	NVIDIA	NVIDIA GPU
cuBLAS	고성능 행렬곱(BLAS Level 3) 연산 최적화	독점	NVIDIA	NVIDIA GPU
cuSPARSE	희소행렬 연산 최적화	독점	NVIDIA	NVIDIA GPU
cuFFT	고속 푸리에 변환(FFT) 최적화	독점	NVIDIA	NVIDIA GPU
NCCL	멀티-GPU 간 통신·병렬 연산 관리	독점	NVIDIA	NVIDIA GPU
FlashAttention	대규모 어텐션 연산 가속화	오픈소스	Hazy Research 등	GPU
DeepGEMM	맞춤형 고성능 행렬곱 연산	일부 오픈	DeepSeek AI	GPU
oneDNN	CPU·GPU 벡터·행렬 연산 및 딥러닝 연산 최적화	오픈소스	Intel (oneAPI)	CPU, Intel GPU

기술 계층 5 (최상단): Framework

SDK와 Lower-level Library를 통합해 모델 정의·학습·추론 전체 워크플로우를 관리
LLM(Large Language Model)은 딥러닝 모델의 한 종류. PyTorch, JAX, TensorFlow는 원래 딥러닝 모델을 개발하고 학습하기 위해 만들어진 딥러닝 전용 프레임워크. 자연스럽게 이들 프레임워크가 LLM 연구 및 개발에 핵심적인 역할을 하게 됨.

이름	용도	라이선스	제작사/관리	주요 하드웨어	AI 연구 분야 주도권
PyTorch	모델 정의·학습·추론 관리	오픈소스 (BSD-style)	Meta (FAIR) / PyTorch Foundation	GPU (CUDA/cuDNN), CPU	대규모 언어·비전 모델 연구 독보적
TensorFlow	모델 정의·학습·추론·배포 관리	오픈소스 (Apache 2.0)	Google	Google TPU, GPU, CPU	산업계 서비스·모바일/엣지 강점
JAX	함수 변환 기반 고성능 컴퓨팅·모델 최적화	오픈소스 (Apache 2.0)	Google	Google TPU (XLA), GPU, CPU	학술·연구용 TPU 대규모 컴퓨팅

항목	PyTorch	PyCUDA	TensorFlow
개발 목적	Pythonic하게 딥러닝 모델 구현 및 학습·추론 관리	Python에서 CUDA C 코드 직접 실행	그래프 기반 모델 정의 + 배포용 AI 플랫폼
주요 사용 사례	모든 주류 LLM (GPT-4, LLaMA, Mistral, DeepSeek 등 거의 모든 오픈·비공개 LLM이 PyTorch 기반)	GPU 커널 디버깅, 실험용 병렬 연산	Google 중심의 AI 생태계 (TPU, TensorFlow Serving 등)에서 강세
LLM 개발 실사용률	압도적 1위 (업계 표준) – GPT, LLaMA, Mistral 등	거의 없음 (실험적 수준 PoC 한정)	구글 계열 LLM(Gemini 등)에서 사용, 민간 LLM에서는 감소 추세
NVIDIA GPU 의존도	매우 높음 – 내부적으로 CUDA/cuDNN/cuBLAS 활용	매우 높음 – NVIDIA Driver + CUDA toolkit 필수	높음 – GPU 활용 시 cuDNN, XLA, CUDA 백엔드 사용
NVIDIA GPU 연동 방식	CUDA 연산을 내부적으로 자동 실행 (`.cuda()`로 명시만 하면 됨)	직접 CUDA kernel 작성 + 수동 memory transfer (Driver API 기반)	내부적으로 GPU context 관리 (TF device scope로 지정)
추상화 수준	중간 수준 (Mid-level) – NumPy처럼 tensor 연산 정의 가능	저수준 (Low-level) – CUDA 코드 직접 작성 필요	중~고수준 – 컴파일/서빙용 API까지 제공
멀티 GPU 지원	기본 내장 (`DataParallel`, `DDP`)	매우 제한적	기본 내장 (`MirroredStrategy`, `TPUStrategy`)
클라우드/서비스 배포 용이성	좋음 – HuggingFace, TorchServe 등	없음	매우 좋음 – TF Serving, TF Lite, TFX 등 배포 생태계 풍부
학습 Curve	낮음 – NumPy와 유사, 직관적	높음 – CUDA 지식, GPU 메모리 모델 필요	중간 – Static/Dynamic graph 이해 필요
라이선스 / 제작사	BSD / Meta (PyTorch Foundation)	MIT / Independent (Andreas Klöckner)	Apache 2.0 / Google