본문 바로가기

비즈

[Forbes] GMAT 논술 채점을 인공지능이 대신해?

참조자료 : Forbes Korea 6월호 경영단상 - 지식산업도 이젠 사양산업?

GMAT(경영대학원 입학시험), MCAT(의과대학 입학시험), LCAT(법학대학원 시험)의 논술 채점을 대행하는 회사에서 논술을 채점하는 사람이 없다고 한다. 인공지능 엔진을 탑재한 컴퓨터가 채점한다고 하는데, 사람보다 더 잘하고 있다고...

인공지능이 할 수 있는 일이란 두 사람의 전문가가 동의할 수 있는 결과물을 내는 일일 경우 가능하다고 한다. 즉 한 학생의 논술 시험지를 채점할 때 두 명의 전문가가 기준에 따라 동일한 점수를 줄 수 있는 영역인 근거제시력, 주제, 문법, 철자, 구성 같은 영역을 채점하는 것이다. 하지만 학생의 창의력이나 글의 아름다움은 채점하지 못한다. 두 사람의 전문가도 아름다움이나 창의성에 대해선 다른 의견을 낼 수밖에 없기 때문이다.
사실 말은 그럴 듯 한데, 정말 가능한지에 대해서는 의문스럽다. 근거제시력, 주제, 구성을 어떻게 평가하는 것인지... 문법이나 철자는 틀린 만큼 감점 요인을 주면 될 것이나 근거는 뭐 얼마나 근거를 대어야 점수를 준다던지 하나? 근거가 무엇인지가 중요한데 인공지능이 어떻게 그 내용을 파악하고 있단 말인가? 몇몇 키워드를 입력해두고 그것이 나오는지를 검토하나?

알 수가 없다. 물론 사람이 하는 일에는 실수가 따르게 마련이다. 오늘 점수를 내었을 때와 내일 점수를 내었을 때가 다를 수도 있다. 감정에 따라 판단이 흐려질 수도 있는 법이다. 그것은 점수를 매기는 것과 무관한 채점자의 심리 상태가 채점에 영향을 미친다는 것이다.

심리학의 몇몇 실험처럼 채점자가 상대를 모르고서 채점하는 경우와 알고서 채점하는 경우는 또 다르다. 해당 학계의 저명한 사람이 적은 것을 채점자가 낮게 평가할 수도 있는 것이다. 만약 채점자가 그 사람이 저명한 사람임을 알았다면 '역시'하는 생각에 채점을 높게 할 수 있는 법이다.

이렇듯 사람이 하는 일에는 주관적이 될 수 밖에 없긴 하지만 그런 점들 때문에 여러 명이 평가를 하는 방식을 취하는 것으로 아는데, 컴퓨터가 대신한다니 그 채점 방식이 어떤지 알고 싶어졌다. 매우. 물론 그것을 알면 논술 시험을 잘 받을 수 있기 때문에 공개하지는 않겠지만 그렇게 되면 내부에서 점수를 잘 받게 하기 위해서 악의적으로 이용될 수도 있는 것 아닌가?

혹시 이런 사실을 아는가 싶어서 후배한테 MSN으로 물어봤더니 사람이 채점한다고. 그래서 죽 설명을 해줬더니 설마 하던데... 바뀌었나? 하면서... 주관식 답도 아니고 논술을 채점한다니 이해가 가지 않지만 사실이라니 궁금해할 수 밖에...