Dataset - LLM 학습용 corpus 목록 (2025)

Created: 6/30/2025 개념·용어 실습·구현

Kaggle 공개 데이터 중에 엄선

영어권 대표 데이터셋 (크기 + 품질 내림차순)

OpenAI (오픈AI)의 GPT-3, Anthropic의 Claude (클로드), Google (구글)의 T5, PaLM 등 거의 모든 LLM의 논문을 보면 Wikipedia + Books + 뉴스 + Common Crawl 조합이 기본

데이터셋	라이선스	주체	언어와 특징 (분야 포함)	내용 품질
English Wikipedia (12GB)	CC BY-SA 3.0	Wikimedia Foundation	영어, 백과사전식, 사실 기반	매우 높음 — 검증된 사실, 편집자 검수, 문체 일관
Wiki-40B (40GB)	CC BY-SA 3.0	Google	영어(다국어 포함), 정제된 위키백과, QA 적합	매우 높음 — 덤프 정제, 언어별 품질 균등
CC-News (76GB)	CC0	Common Crawl Foundation	영어, 뉴스 기사, 시사성 데이터	높음 — 뉴스 원문, 사실성 높음, 시사성 반영
C4 (750GB)	CC0	Google (T5 팀)	영어, 클린 웹, 다중 도메인	높음 — 강력한 스팸 필터링, 광고 제거, 표준 문체
The Pile (825GB)	CC0 + 혼합	EleutherAI	영어, 논문·코드·포럼 혼합, 다중 도메인	높음~중간 — 과학 논문·코드 파트는 품질 높음, 일부 포럼/토론 노이즈
English CC100 (292GB)	CC0	Facebook AI (Meta)	영어, 위키 스타일 웹, CCNet 필터	높음~중간 — Wiki-like 필터링, 도메인 혼합
CC-Stories (31GB)	CC0	Google Brain	영어, 이야기체 웹 문서, 상식 추론	높음~중간 — 사건·스토리 중심, Common Crawl보다 필터링 우수
OpenWebText (38GB)	CC0	EleutherAI	영어, 인터넷 커뮤니티 링크, Reddit 기반	중간~높음 — 커뮤니티 선별, 밈·포럼 문체 포함
Books3 (196GB)	일부 Public Domain, 일부 불명	The Eye, EleutherAI	영어, 소설·논픽션 혼합, Gutenberg 일부 포함	중간 — 일부 신뢰 불명 원본, 저작권 혼재
BookCorpus (4GB)	논문 공개, 재배포 불가	Zhu et al. (Toronto)	영어, 미출판 소설, 내러티브 중심	중간 — 대화체·긴 문맥, 품질 혼재
Common Crawl (PB급 원본)	CC0	Common Crawl Foundation	영어(다국어 포함), 전체 웹, 원본	낮음~중간 — 스팸·중복 다수, 도메인 혼잡

한국어 대표 데이터셋 (크기 + 품질 내림차순)

데이터셋	라이선스	주체	언어와 특징 (분야 포함)	내용 품질
KorQuAD (70K QA 쌍)	CC BY-NC-SA	LG CNS, KAIST	한국어, 백과사전 기반 QA, 위키 문서 사용	매우 높음 — 수작업 QA, 질문과 답 신뢰성
Korean Wikipedia (약 1GB)	CC BY-SA 3.0	Wikimedia Foundation	한국어, 백과사전 문체, 사실 기반	높음 — 영어 위키와 동일 구조, 품질 일정
TED Talks (Ko-En) (~10GB)	CC BY-NC-ND	TED	한국어/영어, 강연 스크립트, 자막 병렬	높음 — 강연 원문 기반, 인공 번역 적음
AI Hub (수백 GB, 모듈별 다름)	연구용 무료, 상업 별도	한국지능정보사회진흥원 (NIA)	한국어/다국어, 뉴스·대화체·SNS·음성 텍스트	높음 — 정부 주도 표준 데이터, QA·음성 포함
AI Hub 번역 (수십 GB)	연구용 무료, 상업 별도	한국지능정보사회진흥원 (NIA)	한국어-영어, 번역 병렬, 문서·뉴스·TED	중간~높음 — 일부 인공 번역 편차 존재