수식을 포함한 Input 파일이
- latex, epub, html 등의 형식일 경우 → pandoc 이용
- pdf 형식일 경우 → pdf2htmlEX + pandoc 이용
Pandoc 이용
- Pandoc 설치 : Windows용 Installer(.msi 파일)을 다운로드하여 설치
- 명령 프롬프트(CMD) 또는 PowerShell을 열어 Pandoc이 정상적으로 설치되었는지 확인
- 윈도우 OS CLI인 CMD에서 EPUB 파일이 있는 폴더로 이동
- Pandoc 명령어 실행
- EPUB 파일이 있는 폴더에서 변환된 파일 확인
pdf2htmlEX + pandoc 이용
PDF 내 LaTeX 수식을 HTML에서 MathJax로 변환 (수식이 유지됨).
pdf2htmlEX다운로드 및 설치- PDF → HTML 변환 (
pdf2htmlEX사용): 명령 프롬프트(CMD)를 열고, PDF가 있는 폴더로 이동한 후 다음 명령어 실행:
powershell
pdf2htmlEX --mathjax FILENAME.pdf FILENAME.html- HTML → Markdown 변환 (
Pandoc사용)
powershell
pandoc -f html -t markdown -o FILENAME.md FILENAME.html추가 옵션 (수식 & 레이아웃 최적화)
변환된 Markdown이 잘 정리되지 않았다면, 다음과 같은 추가 옵션을 활용할 수 있습니다.
(1) HTML → Markdown 변환 시 LaTeX 수식 유지
Pandoc에서 --mathjax 옵션을 추가하여 LaTeX 수식을 유지할 수 있습니다.
powershell
pandoc -f html -t markdown --mathjax -o FILENAME.md FILENAME.html이렇게 하면 Markdown 내에서 수식이 $...$, $$...$$ 형태로 보존됩니다.
(2) PDF 내 이미지 포함 변환
PDF 내 포함된 이미지를 함께 변환하고 싶다면:
powershell
pdf2htmlEX --embed-image 0 --mathjax FILENAME.pdf FILENAME.html그 후 Pandoc에서 이미지 포함하여 Markdown 변환:
powershell
pandoc -f html -t markdown --extract-media=media -o FILENAME.md FILENAME.html변환 후 media/ 폴더에 이미지가 저장됨.