Argument Scoring GPT
실험 목적
Rubric–Features–Traits 구조를 명확히 정의하고, 동일한 기준을 반복 적용하는 GPT 기반 최소 에세이 평가 시스템을 구축한다.
실험 동기
언론 기사·오피니언·칼럼을 대상으로 “전문가 수준인지”를 체계적으로 판별한다.
실험 도구
추가 파인튜닝 없이 system instruction만으로 평가자를 구성한다.
핵심 설계 1: Features & Binary Traits
각 Feature는 관찰 가능한 Trait으로만 판단하며, 결과는 1(positive) / 0(negative) 로 기록한다.
가중치는 normalized(총합 100%).
| Feature | 평가 대상 | Weight | Traits (+1, positive) | Traits (0, negative) |
|---|---|---|---|---|
| Clarity | 핵심 가정·전제·해결책 | 0.50 | 명확한 주장, 구체적 사례 제시 | 추상적 표현, 정의 없는 개념 사용 |
| Structure | 전체 논리 구조 | 0.30 | 주장–근거–결론의 흐름 | 나열형, 논리 비약, 연결 부재 |
| Tone | 글의 어조 | 0.20 | 유보·조건 인식, 반대 의견 고려 | 단정적 확언, 타자 낙인 |
핵심 설계 2: Scoring 규칙
각 Feature 점수 × 가중치의 합을 Overall 점수로 계산한다.
- 상: Overall ≥ 0.70
- 중: 0.50 ≤ Overall < 0.70
- 하: Overall < 0.50
출력 형식
| Feature | 평가 값 | 근거 요약 |
|---|---|---|
| Clarity | negative | 핵심 주장이 뒤늦게 드러남 |
| Structure | negative | 근거가 주장과 직접 연결되지 않음 |
| Tone | positive | 일부 지점에서 조건부 표현 사용 |
| Overall | 하 | 0.20 |
→ GPT용 System Prompt 문장으로 최적화 변환
→ Few-shot example도 추가하여 튜닝하면, 결과 품질이 더 좋아질 수 있음.