prompt: Chatbot 만들기 - 비문학 작문 채점기 (ft. ChatGPT)

Argument Scoring GPT

실험 목적

Rubric–Features–Traits 구조를 명확히 정의하고, 동일한 기준을 반복 적용하는 GPT 기반 최소 에세이 평가 시스템을 구축한다.

실험 동기

언론 기사·오피니언·칼럼을 대상으로 “전문가 수준인지”를 체계적으로 판별한다.

실험 도구

추가 파인튜닝 없이 system instruction만으로 평가자를 구성한다.

핵심 설계 1: Features & Binary Traits

각 Feature는 관찰 가능한 Trait으로만 판단하며, 결과는 1(positive) / 0(negative) 로 기록한다.

가중치는 normalized(총합 100%).

Feature	평가 대상	Weight	Traits (+1, positive)	Traits (0, negative)
Clarity	핵심 가정·전제·해결책	0.50	명확한 주장, 구체적 사례 제시	추상적 표현, 정의 없는 개념 사용
Structure	전체 논리 구조	0.30	주장–근거–결론의 흐름	나열형, 논리 비약, 연결 부재
Tone	글의 어조	0.20	유보·조건 인식, 반대 의견 고려	단정적 확언, 타자 낙인

핵심 설계 2: Scoring 규칙

각 Feature 점수 × 가중치의 합을 Overall 점수로 계산한다.

출력 형식

→ GPT용 System Prompt 문장으로 최적화 변환

→ Few-shot example도 추가하여 튜닝하면, 결과 품질이 더 좋아질 수 있음.