수식을 포함한 Input 파일이

  • latex, epub, html 등의 형식일 경우 → pandoc 이용
  • pdf 형식일 경우 → pdf2htmlEX + pandoc 이용

Pandoc 이용

  • Pandoc 설치 : Windows용 Installer(.msi 파일)을 다운로드하여 설치
  • 명령 프롬프트(CMD) 또는 PowerShell을 열어 Pandoc이 정상적으로 설치되었는지 확인
  • 윈도우 OS CLI인 CMD에서 EPUB 파일이 있는 폴더로 이동
  • Pandoc 명령어 실행
  • EPUB 파일이 있는 폴더에서 변환된 파일 확인

pdf2htmlEX + pandoc 이용

PDF 내 LaTeX 수식을 HTML에서 MathJax로 변환 (수식이 유지됨).

  • pdf2htmlEX 다운로드 및 설치
  • PDF → HTML 변환 (pdf2htmlEX 사용): 명령 프롬프트(CMD)를 열고, PDF가 있는 폴더로 이동한 후 다음 명령어 실행:
powershell
pdf2htmlEX --mathjax FILENAME.pdf FILENAME.html
  • HTML → Markdown 변환 (Pandoc 사용)
powershell
pandoc -f html -t markdown -o FILENAME.md FILENAME.html

추가 옵션 (수식 & 레이아웃 최적화)

변환된 Markdown이 잘 정리되지 않았다면, 다음과 같은 추가 옵션을 활용할 수 있습니다.

(1) HTML → Markdown 변환 시 LaTeX 수식 유지

Pandoc에서 --mathjax 옵션을 추가하여 LaTeX 수식을 유지할 수 있습니다.

powershell
pandoc -f html -t markdown --mathjax -o FILENAME.md FILENAME.html

이렇게 하면 Markdown 내에서 수식이 $...$, $$...$$ 형태로 보존됩니다.

(2) PDF 내 이미지 포함 변환

PDF 내 포함된 이미지를 함께 변환하고 싶다면:

powershell
pdf2htmlEX --embed-image 0 --mathjax FILENAME.pdf FILENAME.html

그 후 Pandoc에서 이미지 포함하여 Markdown 변환:

powershell
pandoc -f html -t markdown --extract-media=media -o FILENAME.md FILENAME.html

변환 후 media/ 폴더에 이미지가 저장됨.