Kaggle 공개 데이터 중에 엄선

영어권 대표 데이터셋 (크기 + 품질 내림차순)

OpenAI (오픈AI)의 GPT-3, Anthropic의 Claude (클로드), Google (구글)의 T5, PaLM 등 거의 모든 LLM의 논문을 보면 Wikipedia + Books + 뉴스 + Common Crawl 조합이 기본

데이터셋 라이선스 주체 언어와 특징 (분야 포함) 내용 품질
English Wikipedia (12GB) CC BY-SA 3.0 Wikimedia Foundation 영어, 백과사전식, 사실 기반 매우 높음 — 검증된 사실, 편집자 검수, 문체 일관
Wiki-40B (40GB) CC BY-SA 3.0 Google 영어(다국어 포함), 정제된 위키백과, QA 적합 매우 높음 — 덤프 정제, 언어별 품질 균등
CC-News (76GB) CC0 Common Crawl Foundation 영어, 뉴스 기사, 시사성 데이터 높음 — 뉴스 원문, 사실성 높음, 시사성 반영
C4 (750GB) CC0 Google (T5 팀) 영어, 클린 웹, 다중 도메인 높음 — 강력한 스팸 필터링, 광고 제거, 표준 문체
The Pile (825GB) CC0 + 혼합 EleutherAI 영어, 논문·코드·포럼 혼합, 다중 도메인 높음~중간 — 과학 논문·코드 파트는 품질 높음, 일부 포럼/토론 노이즈
English CC100 (292GB) CC0 Facebook AI (Meta) 영어, 위키 스타일 웹, CCNet 필터 높음~중간 — Wiki-like 필터링, 도메인 혼합
CC-Stories (31GB) CC0 Google Brain 영어, 이야기체 웹 문서, 상식 추론 높음~중간 — 사건·스토리 중심, Common Crawl보다 필터링 우수
OpenWebText (38GB) CC0 EleutherAI 영어, 인터넷 커뮤니티 링크, Reddit 기반 중간~높음 — 커뮤니티 선별, 밈·포럼 문체 포함
Books3 (196GB) 일부 Public Domain, 일부 불명 The Eye, EleutherAI 영어, 소설·논픽션 혼합, Gutenberg 일부 포함 중간 — 일부 신뢰 불명 원본, 저작권 혼재
BookCorpus (4GB) 논문 공개, 재배포 불가 Zhu et al. (Toronto) 영어, 미출판 소설, 내러티브 중심 중간 — 대화체·긴 문맥, 품질 혼재
Common Crawl (PB급 원본) CC0 Common Crawl Foundation 영어(다국어 포함), 전체 웹, 원본 낮음~중간 — 스팸·중복 다수, 도메인 혼잡

한국어 대표 데이터셋 (크기 + 품질 내림차순)

데이터셋 라이선스 주체 언어와 특징 (분야 포함) 내용 품질
KorQuAD (70K QA 쌍) CC BY-NC-SA LG CNS, KAIST 한국어, 백과사전 기반 QA, 위키 문서 사용 매우 높음 — 수작업 QA, 질문과 답 신뢰성
Korean Wikipedia (약 1GB) CC BY-SA 3.0 Wikimedia Foundation 한국어, 백과사전 문체, 사실 기반 높음 — 영어 위키와 동일 구조, 품질 일정
TED Talks (Ko-En) (~10GB) CC BY-NC-ND TED 한국어/영어, 강연 스크립트, 자막 병렬 높음 — 강연 원문 기반, 인공 번역 적음
AI Hub (수백 GB, 모듈별 다름) 연구용 무료, 상업 별도 한국지능정보사회진흥원 (NIA) 한국어/다국어, 뉴스·대화체·SNS·음성 텍스트 높음 — 정부 주도 표준 데이터, QA·음성 포함
AI Hub 번역 (수십 GB) 연구용 무료, 상업 별도 한국지능정보사회진흥원 (NIA) 한국어-영어, 번역 병렬, 문서·뉴스·TED 중간~높음 — 일부 인공 번역 편차 존재