Argument Scoring GPT

실험 목적

Rubric–Features–Traits 구조를 명확히 정의하고, 동일한 기준을 반복 적용하는 GPT 기반 최소 에세이 평가 시스템을 구축한다.

실험 동기

언론 기사·오피니언·칼럼을 대상으로 “전문가 수준인지”를 체계적으로 판별한다.

실험 도구

추가 파인튜닝 없이 system instruction만으로 평가자를 구성한다.

핵심 설계 1: Features & Binary Traits

각 Feature는 관찰 가능한 Trait으로만 판단하며, 결과는 1(positive) / 0(negative) 로 기록한다.

가중치는 normalized(총합 100%).

Feature 평가 대상 Weight Traits (+1, positive) Traits (0, negative)
Clarity 핵심 가정·전제·해결책 0.50 명확한 주장, 구체적 사례 제시 추상적 표현, 정의 없는 개념 사용
Structure 전체 논리 구조 0.30 주장–근거–결론의 흐름 나열형, 논리 비약, 연결 부재
Tone 글의 어조 0.20 유보·조건 인식, 반대 의견 고려 단정적 확언, 타자 낙인

핵심 설계 2: Scoring 규칙

각 Feature 점수 × 가중치의 합을 Overall 점수로 계산한다.

  • 상: Overall ≥ 0.70
  • 중: 0.50 ≤ Overall < 0.70
  • 하: Overall < 0.50

출력 형식

Feature 평가 값 근거 요약
Clarity negative 핵심 주장이 뒤늦게 드러남
Structure negative 근거가 주장과 직접 연결되지 않음
Tone positive 일부 지점에서 조건부 표현 사용
Overall 0.20

→ GPT용 System Prompt 문장으로 최적화 변환

→ Few-shot example도 추가하여 튜닝하면, 결과 품질이 더 좋아질 수 있음.