Base LLM 개발 환경의 현실과 SDK 생태계
대규모 LLM (Large Language Model) 시대의 핵심은 단순한 연산력(FLOPs)이 아니라, 병렬 연산 계층 구조와 생태계 독점성에 있다. NVIDIA의 CUDA (Compute Unified Device Architecture)는 GPU 병렬 연산 최적화를 위한 사실상 유일한 상용 표준으로 자리잡았다. OpenCL (Open Computing Language)과 같은 범용 병렬 연산 표준이 존재하지만, 대규모 LLM의 실질적 개발·운영 현실은 다르다. PyTorch Framework를 중심으로 한 Base LLM 연구개발은 거의 대부분 CUDA와 NVIDIA GPU에 의존한다. AMD ROCm, FPGA, Intel oneAPI 등은 하드웨어 PoC (Proof of Concept) 단계에서는 활용될 수 있으나, 상용 LLM 생태계에서는 실효성이 극히 제한적이다. 결국 병렬 연산의 성패는 하드웨어 설계 → Compiler → SDK → 라이브러리 → 프레임워크로 이어지는 계층적 통합 역량에 달려 있다. OpenCL, FPGA, ROCm은 하드웨어 검증이나 HPC (High Performance Computing) 분야에서는 의미가 있지만, 대규모 LLM의 훈련과 추론 파이프라인에서는 실질적 대안이 되지 못한다. 병렬 연산 경쟁의 본질은 혁신적인 코어 설계가 아니라, Compiler–SDK–Library–Framework으로 이어지는 전 계층의 최적화에 있다. 대안 생태계가 경쟁력을 갖추려면 단순한 Open 표준을 넘어, CUDA 생태계와 같은 수직적 통합 수준을 실현해야 한다. 그렇지 않다면 LLM은 앞으로도 NVIDIA CUDA 위에서 돌아갈 수밖에 없을 것이다.
CUDA 중심 LLM 현실
주요 Base LLM의 연산 환경
2025년 기준, Google (구글) TPU 기반 Gemini 시리즈를 제외하면 OpenAI (오픈AI), xAI, DeepSeek AI, Anthropic (앤트로픽) 등 거의 모든 LLM은 PyTorch와 NVIDIA CUDA를 사용한다.
| LLM | Hardware | Compiler | SDK | Framework | 비고 |
| ChatGPT 4o+ (OpenAI) | NVIDIA A100/H100 | NVCC | CUDA | PyTorch | Microsoft Azure |
| Grok 3+ (xAI) | NVIDIA H100 | NVCC | CUDA | PyTorch | |
| DeepSeek R-1+ | NVIDIA H800 | NVCC | CUDA | PyTorch | DeepGEMM 연계 |
| Claude 3.7+ (Anthropic) | AWS Trainium/Inferentia | AWS Neuron Compiler | Neuron SDK | PyTorch | AWS 인프라 |
| Gemini 2.5+ (Google) | Google TPU | XLA | TPU SDK | JAX, TensorFlow | Google 독자 생태계 |
병렬 연산 SDK 비교
| SDK | Open vs Exclusive | 하드웨어 독점성 | 점유율 | LLM 활용 |
| CUDA | Exclusive | NVIDIA GPU 전용 | AI GPU 시장 90%+ | GPT-4, LLaMA, Falcon 등 주류 LLM |
| AWS Neuron | Exclusive | AWS Trainium/Inferentia 전용 | AWS 클라우드 전용 | Claude |
| TPU SDK | Exclusive | Google TPU 전용 | Google 내부 | Gemini |
| OpenCL | Open | CPU/GPU/FPGA 호환 | HPC 일부 | LLM 직접 적용 거의 없음 |
| ROCm (HIP) | Open but AMD-centric | AMD GPU | HPC·과학계 | LLM 논문 사례 극소수 |
병렬 연산 계층 구조: 하드웨어에서 프레임워크까지
기술 계층 1단: Hardware
| HW | 설계사 | 주요 Foundry |
| NVIDIA GPU | NVIDIA | TSMC |
| AWS Trainium | AWS | TSMC |
| Google TPU | Google | TSMC |
| CPU (Intel/AMD) | Intel, AMD | Intel, TSMC |
기술 계층 2단: Compiler
| Compiler | Target HW | 제작사 |
| NVCC | NVIDIA GPU | NVIDIA |
| Neuron Compiler | AWS NPU | AWS |
| XLA | TPU, GPU, CPU | Google |
| TVM | CPU, GPU, NPU | Apache TVM Project |
기술 계층 3단: SDK
| SDK | Target HW | 제작사 |
| CUDA, TensorRT-LLM | NVIDIA GPU | NVIDIA |
| Neuron SDK | AWS Trainium | AWS |
| TPU SDK | TPU | Google |
| ROCm/HIP | AMD GPU | AMD |
기술 계층 4단: Low-level Library
| 라이브러리 | 용도 | HW |
| cuDNN | 딥러닝 연산 (Conv, Pooling) | NVIDIA |
| cuBLAS | 행렬곱 | NVIDIA |
| cuSPARSE | 희소행렬 | NVIDIA |
| cuFFT | FFT 연산 | NVIDIA |
| NCCL | 멀티 GPU 통신 | NVIDIA |
| FlashAttention | Attention 가속 | GPU |
| DeepGEMM | 고성능 GEMM | GPU |
| oneDNN | CPU·GPU 연산 | Intel |
기술 계층 5단: Framework
| Framework | 주도 기업 | 주요 HW | 특징 |
| PyTorch | Meta | NVIDIA GPU | LLM 표준 |
| TensorFlow | Google | TPU, GPU | 산업 서비스 |
| JAX | Google | TPU | 연구 최적화 |
OpenCL과 FPGA: 기술 가능성과 한계
OpenCL은 CPU·GPU·FPGA 등 이종 하드웨어를 모두 지원하지만, PyTorch나 TensorFlow는 공식 OpenCL 백엔드를 제공하지 않는다. PyOpenCL, JOCL 등은 연구 실험용 PoC 수준이며, LLM 개발과 추론에는 거의 사용되지 않는다. FPGA는 유연한 하드웨어 검증에 적합하나, PyTorch 생태계와 직접 호환되지 않아 대규모 LLM 파이프라인 구축에 실효성이 떨어진다.