Speech-to-Text: Google Colab 기반 Whisper 자막 생성 작업흐름

1. STT(Speech-to-Text) 방법별 비교

다양한 도구들의 효율성과 정밀도를 기준으로 분류한 비교표입니다.

방법	소요 시간	정확도	비용	난이도	특징
NotebookLM / DownSub	1분 미만	80-90%	무료	⭐	YouTube 자동 생성 자막 활용
Whisper (Web)	3-10분	85-92%	무료	⭐⭐	웹 인터페이스 기반 편리함
Whisper (Local)	5-15분	90-95%	무료	⭐⭐⭐	PC 사양에 의존적
Google Cloud STT	2-5분	95-98%	유료	⭐⭐⭐⭐	엔터프라이즈급 정밀도

2. Google NotebookLM 활용법 (가장 간편한 방식)

YouTube의 기존 자동 자막을 활용하고 싶을 때 가장 효율적인 방식입니다.

소스 입력: NotebookLM 접속 후 소스에 대상 YouTube 영상 링크를 추가합니다.
프롬프트 입력: Chat 창에 "영상 음성을 추출하여 텍스트 스크립트로 추출해줘"라고 명령합니다.
결과 확인: LLM(Large Language Model, 거대언어모델)인 Gemini가 영상의 맥락을 파악하여 스크립트를 생성합니다.

3. Google Colab 기반 Whisper 워크플로우

저사양 Mini PC 환경에서도 Google의 T4 GPU 자원을 활용하여 1시간 분량의 영상을 약 5분 내외로 처리할 수 있는 고성능 방식입니다.

1단계: 환경 설정

런타임 연결: Google Colab 접속 후 상단 메뉴 [런타임] > [런타임 유형 변경] 선택.
가속기 설정: 하드웨어 가속기를 T4 GPU로 설정합니다.

2단계: 필수 라이브러리 설치

첫 번째 셀에서 시스템 업데이트와 음성 추출 및 자막 엔진 설치를 진행합니다.

python

# 시스템 라이브러리 및 Whisper, yt-dlp 설치
!sudo apt update && sudo apt install ffmpeg
!pip install git+https://github.com/openai/whisper.git
!pip install yt-dlp

3단계: 음성 추출 및 자막 변환 실행

아래 코드를 실행하여 YouTube 영상을 음성 파일로 변환한 뒤, Whisper 엔진으로 자막 파일을 생성합니다.

python

import os

# 설정값 입력
YOUTUBE_URL = "여기에_유튜브_링크_입력" # @param {type:"string"}
MODEL_SIZE = "large-v3" # @param ["base", "small", "medium", "large-v3"]

# 1. 유튜브에서 음성만 추출 (audio.mp3로 저장)
!yt-dlp -x --audio-format mp3 -o "audio.mp3" {YOUTUBE_URL}

# 2. Whisper 실행 (SRT 파일 생성)
# --model: 모델 크기 (정확도를 위해 large-v3 권장)
# --language: 언어 설정 (한국어 ko)
# --output_format: 자막 형식 (srt)
!whisper "audio.mp3" --model {MODEL_SIZE} --language ko --output_format srt

4. 핵심 팁 및 사후 처리

모델 선택 가이드

각 모델은 크기에 따라 속도와 정확도가 비례합니다.

tiny / base: 빠른 확인용. 정확도가 낮음.
small / medium: 균형 잡힌 선택. 20분 내외 영상은 medium 권장.
large-v3: 최고 정확도. Colab GPU 환경에서는 무조건 large-v3 사용을 권장합니다.

Mini PC 사용자를 위한 관리 팁

파일 다운로드: 왼쪽 사이드바 폴더 아이콘 클릭 후 생성된 audio.srt 우클릭 → 다운로드.
휘발성 주의: 코랩 세션이 종료되면 데이터가 삭제되므로 즉시 로컬로 이동하십시오.
세션 유지: 작업 중 브라우저 탭을 닫지 않아야 연결이 끊기지 않습니다.

LLM 활용 가독성 보정

자막이 너무 짧게 파편화된 경우, Gemini에게 다음과 같이 요청하여 가독성을 높일 수 있습니다.

"아래 SRT 자막의 타임라인을 유지하되, 문맥상 자연스럽게 두 줄씩 합쳐서 가독성을 높여줘. 최종 형식은 다시 SRT로 출력해줘."