TensorFlow/JAX 연산 그래프를 TPU·GPU·CPU·NPU 등 타겟별 하드웨어 최적화 코드로 컴파일
오픈소스 (Apache 2.0)
Google
TPU, GPU, CPU, NPU 등
TensorFlow, JAX (특히 TPU 통합)
TVM
다양한 프레임워크 모델(IR)을 받아 CPU·GPU·TPU·NPU 등 각 하드웨어에 최적화된 코드 생성
오픈소스 (Apache 2.0)
Apache TVM Project
CPU, GPU, TPU, NPU 등
프레임워크 불문, IR 교차 컴파일 및 최적화
다양한 Machine Learning Framework (TensorFlow, PyTorch, JAX 등)의 모델을 다양한 하드웨어 백엔드(CPU, GPU, TPU, NPU 등)에서 효율적으로 실행하기 위한 Compiler Framework. NVCC를 내부적으로 활용할 수 있지만, 더 넓은 범위와 목적을 가집니다.
ONNX (Open Neural Network Exchange): 서로 다른 딥러닝 프레임워크(PyTorch, TensorFlow, scikit-learn 등) 간에 모델을 교환하기 위한 Open Standard Format이며, 컴파일러가 아님. ONNX Format은 모델의 구조(레이어, 연산, 가중치 등)를 정의하는 일종의 설계도 또는 명세서이고, ONNX Runtime은 ONNX Format을 읽고 해석하여, GPU, CPU, Edge 장치 등 다양한 하드웨어에서 모델이 효율적으로 작동하도록 하는 엔진.
LLVM (Low Level Virtual Machine): 다양한 언어와 하드웨어를 위한 Compiler Infra Project.
기술 계층 3단 : SDK (Software Development Kit)
이름
용도
라이선스
제작사/관리
주요 하드웨어
관련 LLM
CUDA, TensorRT-LLM
GPU 연산 환경 제공, 추론 연산 최적화
독점
NVIDIA
NVIDIA GPU
GPT-4,
Neuron SDK
AWS 하드웨어용 SDK (학습/추론)
독점
AWS
AWS Trainium/Inferentia
Claude
Google Cloud TPU SDK
TPU 연산 환경 제공
독점
Google
Google TPU
Gemini
기술 계층 4단: Library (Lower-level)
특정 연산(행렬, 컨볼루션, FFT 등)을 하드웨어에 최적화하여 제공하는 라이브러리
이름
용도
라이선스
제작사/관리
주요 하드웨어
cuDNN
딥러닝 컨볼루션·풀링·정규화 등 기본 연산 최적화
독점
NVIDIA
NVIDIA GPU
cuBLAS
고성능 행렬곱(BLAS Level 3) 연산 최적화
독점
NVIDIA
NVIDIA GPU
cuSPARSE
희소행렬 연산 최적화
독점
NVIDIA
NVIDIA GPU
cuFFT
고속 푸리에 변환(FFT) 최적화
독점
NVIDIA
NVIDIA GPU
NCCL
멀티-GPU 간 통신·병렬 연산 관리
독점
NVIDIA
NVIDIA GPU
FlashAttention
대규모 어텐션 연산 가속화
오픈소스
Hazy Research 등
GPU
DeepGEMM
맞춤형 고성능 행렬곱 연산
일부 오픈
DeepSeek AI
GPU
oneDNN
CPU·GPU 벡터·행렬 연산 및 딥러닝 연산 최적화
오픈소스
Intel (oneAPI)
CPU, Intel GPU
기술 계층 5 (최상단): Framework
SDK와 Lower-level Library를 통합해 모델 정의·학습·추론 전체 워크플로우를 관리
LLM(Large Language Model)은 딥러닝 모델의 한 종류. PyTorch, JAX, TensorFlow는 원래 딥러닝 모델을 개발하고 학습하기 위해 만들어진 딥러닝 전용 프레임워크. 자연스럽게 이들 프레임워크가 LLM 연구 및 개발에 핵심적인 역할을 하게 됨.
이름
용도
라이선스
제작사/관리
주요 하드웨어
AI 연구 분야 주도권
PyTorch
모델 정의·학습·추론 관리
오픈소스 (BSD-style)
Meta (FAIR) / PyTorch Foundation
GPU (CUDA/cuDNN), CPU
대규모 언어·비전 모델 연구 독보적
TensorFlow
모델 정의·학습·추론·배포 관리
오픈소스 (Apache 2.0)
Google
Google TPU, GPU, CPU
산업계 서비스·모바일/엣지 강점
JAX
함수 변환 기반 고성능 컴퓨팅·모델 최적화
오픈소스 (Apache 2.0)
Google
Google TPU (XLA), GPU, CPU
학술·연구용 TPU 대규모 컴퓨팅
항목
PyTorch
PyCUDA
TensorFlow
개발 목적
Pythonic하게 딥러닝 모델 구현 및 학습·추론 관리
Python에서 CUDA C 코드 직접 실행
그래프 기반 모델 정의 + 배포용 AI 플랫폼
주요 사용 사례
모든 주류 LLM (GPT-4, LLaMA, Mistral, DeepSeek 등 거의 모든 오픈·비공개 LLM이 PyTorch 기반)
GPU 커널 디버깅, 실험용 병렬 연산
Google 중심의 AI 생태계 (TPU, TensorFlow Serving 등)에서 강세
LLM 개발 실사용률
압도적 1위 (업계 표준) – GPT, LLaMA, Mistral 등
거의 없음 (실험적 수준 PoC 한정)
구글 계열 LLM(Gemini 등)에서 사용, 민간 LLM에서는 감소 추세
NVIDIA GPU 의존도
매우 높음 – 내부적으로 CUDA/cuDNN/cuBLAS 활용
매우 높음 – NVIDIA Driver + CUDA toolkit 필수
높음 – GPU 활용 시 cuDNN, XLA, CUDA 백엔드 사용
NVIDIA GPU 연동 방식
CUDA 연산을 내부적으로 자동 실행 (.cuda()로 명시만 하면 됨)
직접 CUDA kernel 작성 + 수동 memory transfer (Driver API 기반)