Kaggle 공개 데이터 중에 엄선
영어권 대표 데이터셋 (크기 + 품질 내림차순)
OpenAI (오픈AI)의 GPT-3, Anthropic의 Claude (클로드), Google (구글)의 T5, PaLM 등 거의 모든 LLM의 논문을 보면 Wikipedia + Books + 뉴스 + Common Crawl 조합이 기본
| English Wikipedia (12GB) | CC BY-SA 3.0 | Wikimedia Foundation | 영어, 백과사전식, 사실 기반 | 매우 높음 — 검증된 사실, 편집자 검수, 문체 일관 |
| Wiki-40B (40GB) | CC BY-SA 3.0 | Google | 영어(다국어 포함), 정제된 위키백과, QA 적합 | 매우 높음 — 덤프 정제, 언어별 품질 균등 |
| CC-News (76GB) | CC0 | Common Crawl Foundation | 영어, 뉴스 기사, 시사성 데이터 | 높음 — 뉴스 원문, 사실성 높음, 시사성 반영 |
| C4 (750GB) | CC0 | Google (T5 팀) | 영어, 클린 웹, 다중 도메인 | 높음 — 강력한 스팸 필터링, 광고 제거, 표준 문체 |
| The Pile (825GB) | CC0 + 혼합 | EleutherAI | 영어, 논문·코드·포럼 혼합, 다중 도메인 | 높음~중간 — 과학 논문·코드 파트는 품질 높음, 일부 포럼/토론 노이즈 |
| English CC100 (292GB) | CC0 | Facebook AI (Meta) | 영어, 위키 스타일 웹, CCNet 필터 | 높음~중간 — Wiki-like 필터링, 도메인 혼합 |
| CC-Stories (31GB) | CC0 | Google Brain | 영어, 이야기체 웹 문서, 상식 추론 | 높음~중간 — 사건·스토리 중심, Common Crawl보다 필터링 우수 |
| OpenWebText (38GB) | CC0 | EleutherAI | 영어, 인터넷 커뮤니티 링크, Reddit 기반 | 중간~높음 — 커뮤니티 선별, 밈·포럼 문체 포함 |
| Books3 (196GB) | 일부 Public Domain, 일부 불명 | The Eye, EleutherAI | 영어, 소설·논픽션 혼합, Gutenberg 일부 포함 | 중간 — 일부 신뢰 불명 원본, 저작권 혼재 |
| BookCorpus (4GB) | 논문 공개, 재배포 불가 | Zhu et al. (Toronto) | 영어, 미출판 소설, 내러티브 중심 | 중간 — 대화체·긴 문맥, 품질 혼재 |
| Common Crawl (PB급 원본) | CC0 | Common Crawl Foundation | 영어(다국어 포함), 전체 웹, 원본 | 낮음~중간 — 스팸·중복 다수, 도메인 혼잡 |
한국어 대표 데이터셋 (크기 + 품질 내림차순)
| KorQuAD (70K QA 쌍) | CC BY-NC-SA | LG CNS, KAIST | 한국어, 백과사전 기반 QA, 위키 문서 사용 | 매우 높음 — 수작업 QA, 질문과 답 신뢰성 |
| Korean Wikipedia (약 1GB) | CC BY-SA 3.0 | Wikimedia Foundation | 한국어, 백과사전 문체, 사실 기반 | 높음 — 영어 위키와 동일 구조, 품질 일정 |
| TED Talks (Ko-En) (~10GB) | CC BY-NC-ND | TED | 한국어/영어, 강연 스크립트, 자막 병렬 | 높음 — 강연 원문 기반, 인공 번역 적음 |
| AI Hub (수백 GB, 모듈별 다름) | 연구용 무료, 상업 별도 | 한국지능정보사회진흥원 (NIA) | 한국어/다국어, 뉴스·대화체·SNS·음성 텍스트 | 높음 — 정부 주도 표준 데이터, QA·음성 포함 |
| AI Hub 번역 (수십 GB) | 연구용 무료, 상업 별도 | 한국지능정보사회진흥원 (NIA) | 한국어-영어, 번역 병렬, 문서·뉴스·TED | 중간~높음 — 일부 인공 번역 편차 존재 |