자동 시험 채점기로서의 대규모 언어 모델에서 핵심은 시험 답안을 인간 채점자가 수행하던 해석·비교·판단 과정을 LLM이 재현하도록 만드는 데 있다. 실사용 가능한 AI Exam Grader의 3가지 최소 조건을 알아본다.
첫 번째 핵심 단계는 Raw Data Conversion(원시 데이터 변환)이다. 시험 답안은 대부분 스캔된 이미지나 PDF 형태로 존재하므로, OCR(Optical Character Recognition, 광학 문자 인식)을 통해 텍스트로 변환해야 한다. 이후 Parsing(구조 파싱)을 통해 문항 단위, 답안 단위로 분해하고, Labeling(라벨링)을 통해 문제 번호, 답안 영역, 계산 과정, 서술 문장 등을 명시적으로 구분한다. 이 단계가 불안정하면 이후 LLM 채점 품질은 급격히 저하된다.
두 번째 핵심 단계는 Labeled Data with Human Rubric(인간 채점 기준이 부여된 데이터)이다. LLM은 “정답”보다 “채점 기준”을 학습해야 한다. 따라서 인간 채점자가 사용하는 Rubric(채점 루브릭)을 명시적 데이터 구조로 정리하고, 각 답안에 대해 부분 점수, 감점 사유, 논리적 결함 등을 함께 라벨링한다. 이 데이터는 프롬프트 설계, 파인튜닝, 평가 검증의 기준점으로 작동한다.
세 번째 핵심 단계는 LLM 기반 채점 추론 레이어다. 여기서 LLM은 단순 분류기가 아니라, “이 답안이 루브릭의 어떤 항목을 얼마나 충족하는가”를 단계적으로 추론한다. 수학 시험에서는 계산 과정의 타당성, 작문 시험에서는 논지·구조·표현을 각각 분리해 평가하는 방식이 일반적이다. 실제 구현 사례로는 pensieve.co(펜시브)가 수학 시험에서 풀이 과정 중심 채점을, essaygrader.ai(에세이그레이더)가 작문 시험에서 서술 품질 중심 채점을 보여준다. 두 사례 모두 공통적으로 Raw Data 정제와 Human Rubric 구조화에 가장 큰 비중을 둔다.
Auto Exam Grader 어플의 본질은 LLM 자체가 아니라 데이터 전처리와 채점 기준의 구조화에 있다. OCR·Parsing·Labeling으로 입력을 통제하고, 인간 Rubric으로 판단 기준을 고정할 때, LLM은 비로소 신뢰 가능한 자동 채점기로 기능할 것이다.