쓸만한 Basic LLM (2025-07 기준)

  • Google 빼고는 모두 PyTorch 이며, PyTorch Framework에서 AWS 빼고는 모두 대부분 CUDA를 사용.
LLM Hardware 주요 활용Compiler 병렬연산용 주요 SDK 주요 활용Framework (추정)
ChatGPT 4o 이상 (OpenAI) NVIDIA A100 / H100 NVCC CUDA PyTorch
Grok 3 이상 (xAI) NVIDIA H100 NVCC CUDA PyTorch
DeepSeek R-1 이상 (DeepSeek AI) NVIDIA H800 NVCC CUDA PyTorch
Claude 3.7 이상 (Anthropic) AWS NPU (Trainium / Inferentia) AWS Neuron Compiler AWS Neuron SDK PyTorch
Gemini 2.5 이상 (Google) Google TPU v4 XLA Google Cloud TPU SDK JAX, Tensorflow

Python 주요 Upper-level Library

라이브러리 용도 라이선스 제작사 / 관리 기관
NumPy 고성능 수치 연산 (배열, 선형대수, 벡터화 등) BSD NumPy 개발팀 (NumFOCUS 지원)
Pandas 시계열 및 표 형식 데이터 조작 및 분석 BSD Pandas 개발팀 (NumFOCUS 지원)
Matplotlib 2D 그래프 및 시각화 PSF license Matplotlib 개발팀 (NumFOCUS)
Seaborn 통계 기반 고수준 시각화 BSD Nathaniel Smith 외 (Matplotlib 기반)
Plotly 인터랙티브 웹 기반 시각화 MIT Plotly, Inc.
scikit-learn 머신러닝 및 데이터 마이닝 (모델 학습, 분류 등) BSD INRIA, SciKit 커뮤니티 (NumFOCUS)
statsmodels 통계 모델링 및 계량경제 분석 (OLS, ARIMA 등) BSD Skipper Seabold 외 (NumFOCUS)
Joblib CPU 병렬 처리 및 결과 캐싱 BSD Joblib 개발팀 (scikit-learn 연계)

병렬 연산 SDK

언어 CPU 연산 SDK/기술 (과거 → 현재) GPU 연산 SDK/기술 (과거 → 현재)
C - ANSI C stdlib - POSIX Thread (Pthreads) - OpenMP (1997~) - CUDA (2007~) - OpenCL (2009~) - HIP/ROCm (2016~)
Java - Java SE API (1996~) - java.util.concurrent (2004~) - JOCL (OpenCL for Java) - JCuda (CUDA for Java) - Aparapi (Java to OpenCL)
Python - stdlib (threading, multiprocessing) - joblib, concurrent.futures - Numba (2012~) - PyCUDA (2009~) - CuPy (2015~) - PyTorch/TensorFlow (GPU 지원)

OpenCL (e.g. PyOpenCL for Python) 처럼,

  • AMD·Intel GPU 또는 FPGA 기반 클러스터 등 CUDA를 사용할 수 없는 환경에서,
  • 최종 LLM 성능 최적화나 배포보다는,
  • 하드웨어 기능 검증 PoC (Proof of Concept)을 위해 사용되는 SDK는 현실적으로, Base LLM 개발에 거의 도움이 안되거나, 도움이 되더라도 매우 오래 걸림.
SDK 이름 Open vs Exclusive 하드웨어 범용성 vs 독점성 병렬 연산 대상 주요 활용 분야 / LLM 특화 점유율
CUDA SDK Exclusive NVIDIA GPU 전용 GPU NVIDIA가 AI 칩 시장의 90 % 이상을 차지 . 대부분의 LLM(예: GPT‑4, Llama, Falcon) 훈련·추론이 A100/H100 GPU + CUDA 스택 위에서 수행됨
AWS Neuron SDK **Exclusive ** AWS Trainium/Inferentia NPU PyTorch-Neuron 등 AWS LLM 전용
Google Cloud TPU SDK **Exclusive ** Google TPU 전용 TPU Gemini 등 Google LLM 전용 최적화
XLA (Accelerator Compiler) 내부 표준용 IR 컴파일러 TPU, GPU, CPU 등 추상화 대상 연산 그래프 최적화 JAX, TensorFlow 내에서 활용되는 추상 계층
ROCm (HIP SDK) Open but AMD-centric AMD GPU GPU CUDA와 유사한 문법, AMD 전용. 주로 HPC/과학 컴퓨팅에 사용, LLM 논문·사례에서 드물게 언급
OpenCL Open standard 다수 벤더 (CPU, GPU, FPGA 등) Heterogeneous (CPU, GPU, DSP 등) Khronos Group 표준이지만, PyTorch는 공식적으로 OpenCL 지원 계획 없음
Intel oneAPI (DPC++) Open but Intel-centric Intel CPU, GPU CPU, GPU SYCL 기반 병렬 연산, CPU 고성능 컴퓨팅 중심

NVIDIA 생태계의 특징

NVIDIA의 '독점기술'인 CUDA는 GPU를 위한 하드웨어 제어 프로그래밍을 위해 CPU의 계층 구조를 그대로 모방하여 GPU에 특화된 형태로 제공하는 SDK.

구분 CPU 프로그래밍 환경 GPU 프로그래밍 환경
하드웨어 CPU (ALU 등 논리회로) GPU (CUDA 코어, Tensor 코어)
OS (Kernel) Linux, Windows Kernel GPU Driver (Kernel 포함)
Shell bash, zsh, PowerShell CUDA Toolkit
Assembly 코드 Assembly 코드 PTX (Parallel Thread Execution) 코드
Compiler GCC, Clang (C언어), Python Compiler NVCC (NVIDIA CUDA Compiler. CUDA 소스 코드 .cu 에서 CPU 코드는 분리하여 GCC와 같은 C compiler 활용)
Programming language C, Python, JavaScript CUDA C/C++, PyTorch 등

GPU 사용 병렬연산 계층 구조

기술 계층 1단 (최하단): Hardware

이름 설계 라이선스 Fabless 설계사 주요 하드웨어 주요 Foundry (2024년말 기준 최신 하드웨어)
GPU 독점 (hardware IP 보호) NVIDIA NVIDIA GPU TSMC
Trainium/Inferentia 독점 (hardware IP 보호) AWS AWS NPU (Trainium / Inferentia) TSMC
TPU 독점 (hardware IP 보호) Google Google TPU TSMC
CPU 독점 (hardware IP 보호) Intel, AMD Intel, AMD Intel Foundry Services (인하우스 제조), AMD CPU는 TSMC (EPYC 5세대)

기술 계층 2단 : Compiler

이름 용도 라이선스 제작사/관리 주요 하드웨어 관련 Framework
NVCC (CUDA Compiler) CUDA C/C++ 코드를 NVIDIA GPU에서 실행 가능한 기계어로 컴파일 독점 (NVIDIA CUDA 포함) NVIDIA NVIDIA GPU PyTorch, TensorFlow, MXNet 등의 CUDA 지원 버전
Neuron Compiler TensorFlow, PyTorch, MXNet, XLA HLO 모델을 AWS Inferentia/Trainium용 실행 파일(NEFF)로 최적화·컴파일 독점 (AWS Neuron SDK) AWS AWS Inferentia, AWS Trainium PyTorch-Neuron, TensorFlow-Neuron, MXNet-Neuron, JAX (XLA HLO)
XLA TensorFlow/JAX 연산 그래프를 TPU·GPU·CPU·NPU 등 타겟별 하드웨어 최적화 코드로 컴파일 오픈소스 (Apache 2.0) Google TPU, GPU, CPU, NPU 등 TensorFlow, JAX (특히 TPU 통합)
TVM 다양한 프레임워크 모델(IR)을 받아 CPU·GPU·TPU·NPU 등 각 하드웨어에 최적화된 코드 생성 오픈소스 (Apache 2.0) Apache TVM Project CPU, GPU, TPU, NPU 등 프레임워크 불문, IR 교차 컴파일 및 최적화
  • 다양한 Machine Learning Framework (TensorFlow, PyTorch, JAX 등)의 모델을 다양한 하드웨어 백엔드(CPU, GPU, TPU, NPU 등)에서 효율적으로 실행하기 위한 Compiler Framework. NVCC를 내부적으로 활용할 수 있지만, 더 넓은 범위와 목적을 가집니다.
  • ONNX (Open Neural Network Exchange): 서로 다른 딥러닝 프레임워크(PyTorch, TensorFlow, scikit-learn 등) 간에 모델을 교환하기 위한 Open Standard Format이며, 컴파일러가 아님. ONNX Format은 모델의 구조(레이어, 연산, 가중치 등)를 정의하는 일종의 설계도 또는 명세서이고, ONNX Runtime은 ONNX Format을 읽고 해석하여, GPU, CPU, Edge 장치 등 다양한 하드웨어에서 모델이 효율적으로 작동하도록 하는 엔진.
  • LLVM (Low Level Virtual Machine): 다양한 언어와 하드웨어를 위한 Compiler Infra Project.

기술 계층 3단 : SDK (Software Development Kit)

이름 용도 라이선스 제작사/관리 주요 하드웨어 관련 LLM
CUDA, TensorRT-LLM GPU 연산 환경 제공, 추론 연산 최적화 독점 NVIDIA NVIDIA GPU GPT-4,
Neuron SDK AWS 하드웨어용 SDK (학습/추론) 독점 AWS AWS Trainium/Inferentia Claude
Google Cloud TPU SDK TPU 연산 환경 제공 독점 Google Google TPU Gemini

기술 계층 4단: Library (Lower-level)

  • 특정 연산(행렬, 컨볼루션, FFT 등)을 하드웨어에 최적화하여 제공하는 라이브러리
이름 용도 라이선스 제작사/관리 주요 하드웨어
cuDNN 딥러닝 컨볼루션·풀링·정규화 등 기본 연산 최적화 독점 NVIDIA NVIDIA GPU
cuBLAS 고성능 행렬곱(BLAS Level 3) 연산 최적화 독점 NVIDIA NVIDIA GPU
cuSPARSE 희소행렬 연산 최적화 독점 NVIDIA NVIDIA GPU
cuFFT 고속 푸리에 변환(FFT) 최적화 독점 NVIDIA NVIDIA GPU
NCCL 멀티-GPU 간 통신·병렬 연산 관리 독점 NVIDIA NVIDIA GPU
FlashAttention 대규모 어텐션 연산 가속화 오픈소스 Hazy Research 등 GPU
DeepGEMM 맞춤형 고성능 행렬곱 연산 일부 오픈 DeepSeek AI GPU
oneDNN CPU·GPU 벡터·행렬 연산 및 딥러닝 연산 최적화 오픈소스 Intel (oneAPI) CPU, Intel GPU

기술 계층 5 (최상단): Framework

  • SDK와 Lower-level Library를 통합해 모델 정의·학습·추론 전체 워크플로우를 관리
  • LLM(Large Language Model)은 딥러닝 모델의 한 종류. PyTorch, JAX, TensorFlow는 원래 딥러닝 모델을 개발하고 학습하기 위해 만들어진 딥러닝 전용 프레임워크. 자연스럽게 이들 프레임워크가 LLM 연구 및 개발에 핵심적인 역할을 하게 됨.
이름 용도 라이선스 제작사/관리 주요 하드웨어 AI 연구 분야 주도권
PyTorch 모델 정의·학습·추론 관리 오픈소스 (BSD-style) Meta (FAIR) / PyTorch Foundation GPU (CUDA/cuDNN), CPU 대규모 언어·비전 모델 연구 독보적
TensorFlow 모델 정의·학습·추론·배포 관리 오픈소스 (Apache 2.0) Google Google TPU, GPU, CPU 산업계 서비스·모바일/엣지 강점
JAX 함수 변환 기반 고성능 컴퓨팅·모델 최적화 오픈소스 (Apache 2.0) Google Google TPU (XLA), GPU, CPU 학술·연구용 TPU 대규모 컴퓨팅
항목 PyTorch PyCUDA TensorFlow
개발 목적 Pythonic하게 딥러닝 모델 구현 및 학습·추론 관리 Python에서 CUDA C 코드 직접 실행 그래프 기반 모델 정의 + 배포용 AI 플랫폼
주요 사용 사례 모든 주류 LLM (GPT-4, LLaMA, Mistral, DeepSeek 등 거의 모든 오픈·비공개 LLM이 PyTorch 기반) GPU 커널 디버깅, 실험용 병렬 연산 Google 중심의 AI 생태계 (TPU, TensorFlow Serving 등)에서 강세
LLM 개발 실사용률 압도적 1위 (업계 표준) – GPT, LLaMA, Mistral 등 거의 없음 (실험적 수준 PoC 한정) 구글 계열 LLM(Gemini 등)에서 사용, 민간 LLM에서는 감소 추세
NVIDIA GPU 의존도 매우 높음 – 내부적으로 CUDA/cuDNN/cuBLAS 활용 매우 높음 – NVIDIA Driver + CUDA toolkit 필수 높음 – GPU 활용 시 cuDNN, XLA, CUDA 백엔드 사용
NVIDIA GPU 연동 방식 CUDA 연산을 내부적으로 자동 실행 (.cuda()로 명시만 하면 됨) 직접 CUDA kernel 작성 + 수동 memory transfer (Driver API 기반) 내부적으로 GPU context 관리 (TF device scope로 지정)
추상화 수준 중간 수준 (Mid-level) – NumPy처럼 tensor 연산 정의 가능 저수준 (Low-level) – CUDA 코드 직접 작성 필요 중~고수준 – 컴파일/서빙용 API까지 제공
멀티 GPU 지원 기본 내장 (DataParallel, DDP) 매우 제한적 기본 내장 (MirroredStrategy, TPUStrategy)
클라우드/서비스 배포 용이성 좋음 – HuggingFace, TorchServe 등 없음 매우 좋음 – TF Serving, TF Lite, TFX 등 배포 생태계 풍부
학습 Curve 낮음 – NumPy와 유사, 직관적 높음 – CUDA 지식, GPU 메모리 모델 필요 중간 – Static/Dynamic graph 이해 필요
라이선스 / 제작사 BSD / Meta (PyTorch Foundation) MIT / Independent (Andreas Klöckner) Apache 2.0 / Google