약 5,000건의 학생 보고서를 분석한 새로운 연구에 따르면, ChatGPT 도입 이후 학생들의 글쓰기가 더욱 세련되고 격식 있으며 긍정적인 어조로 바뀌었지만, 성적은 변함이 없는 것으로 나타났습니다. 이번 연구 결과는 목소리, 비판적 사고, 그리고 인공지능이 풍부한 시대에 대학이 글쓰기를 어떻게 가르쳐야 하는지에 대한 새로운 질문을 제기합니다.
워릭대학교가 주도한 새로운 연구에 따르면, ChatGPT 도입 이후 학생들의 글쓰기는 더욱 세련되고 격식 있고 긍정적인 방향으로 바뀌었지만, 성적은 거의 변화가 없는 것으로 나타났습니다.
연구진은 10년 동안 학생들이 작성한 약 5,000건의 보고서를 분석한 결과, ChatGPT와 같은 생성형 인공지능 도구가 널리 보급된 2022년 후반 이후 학생들이 사용하는 언어가 눈에 띄게 변화했음을 발견했습니다. 이들의 연구는 다음과 같습니다. 출판 학술지 '컴퓨터와 교육: 인공지능'에 실린 한 논문은 인공지능이 학생들의 글쓰기 방식을 미묘하게 변화시키고 있다고 주장합니다. 비록 학생들이 논하거나 설명할 수 있는 내용 자체를 아직 바꾸지는 못했지만 말입니다.
연구팀은 10년 동안 학부생들이 제출한 약 17만 단어 분량의 4,820건의 실증 보고서를 분석했습니다. 연구진은 AI를 이용해 개별 학생을 추적하는 대신, ChatGPT 도입 전후의 스타일, 어조, 어휘 사용에서 나타나는 광범위한 집단 수준의 패턴을 살펴보았습니다.
연구진은 2022년부터 학생들의 글이 더욱 긍정적인 정서를 담고, 어조는 더욱 격식 있고, 어휘는 더욱 다양해졌다는 사실을 발견했습니다. 이러한 변화는 주제에 관계없이 모든 보고서에서 나타났으며, 이는 학생들이 글을 쓰는 방식에 전반적인 변화가 있음을 시사합니다.
제1저자인 워릭대학교 심리학 조교수 매튜 막은 학생들의 연구 결과가 이제 인기 있는 AI 도구의 기본 스타일과 매우 유사해졌다고 말했다.
막 교수는 보도자료에서 "학생들의 글 어조가 ChatGPT의 결과물과 일관되게 더욱 긍정적인 경향을 보인다. 이는 그 자체로 좋거나 나쁜 것은 아니지만, AI 도구가 학생들의 목소리를 획일화할 가능성에 대한 우려를 불러일으킨다"고 밝혔다.
많은 생성형 AI 시스템은 불쾌하거나 유해한 콘텐츠를 방지하기 위해 정중하고 건설적이며 긍정적인 어조를 사용하도록 설계되었습니다. 이러한 기본적인 긍정성이 아이디어를 구상하거나, 표현을 바꾸거나, 과제를 다듬기 위해 이러한 도구를 사용하는 학생들에게 영향을 미칠 수 있습니다.
막과 그의 동료들은 심리학 연구에서 긍정적인 기분이 비판적 검토 능력 저하와 관련이 있다는 점을 지적합니다. 연구진은 학생들이 끊임없이 낙관적인 어조의 AI 생성 텍스트에 노출될 경우, 대학들이 그것이 학생들의 장기적인 비판적 사고력과 학문적 목소리에 어떤 영향을 미칠 수 있는지 이해해야 한다고 주장합니다.
또한 이 연구는 ChatGPT 출시 이후 격식체 사용과 어휘 범위가 급격히 증가했음을 발견했습니다. 이러한 스타일 개선은 일반적으로 수년간의 작문 연습을 통해서만 나타나는 것이므로, 학생들의 기본적인 작문 능력이 갑자기 크게 향상된 것을 반영하는 것은 아닐 가능성이 높습니다.
다시 말해, 에세이가 표면적으로는 더 세련되어 보일 수 있지만, 그것이 학생들이 논증을 구성하거나, 증거를 평가하거나, 데이터를 해석하는 것과 같은 심층적인 의미에서 더 나은 작가가 되었다는 것을 반드시 의미하는 것은 아닙니다.
연구진은 AI의 영향을 보다 직접적으로 조사하기 위해 2022년 이전에 작성된 보고서를 가져와 ChatGPT에 다시 작성하도록 요청했습니다. AI가 생성한 재작성본은 ChatGPT가 도입된 이후 제출된 실제 학생 과제에서 나타난 것과 동일한 어조와 스타일의 변화를 보여주었습니다. 이러한 유사 패턴은 생성형 AI가 연구팀이 관찰한 변화의 핵심 동인이라는 주장을 뒷받침합니다.
연구진은 인공지능이 생성한 글에서 자주 사용되는 단어들의 사용 양상도 추적했습니다. 일부 단어는 2024년까지 사용 빈도가 급증했다가 2025년에는 급격히 감소했습니다. 이러한 패턴은 학생들이 챗봇처럼 들리는 표현을 사용하지 않도록 더욱 신중해졌음을 시사하며, 이는 인공지능 탐지 도구에 대한 인식이 높아지거나 대학 정책이 변화함에 따라 나타난 현상일 수 있습니다.
이러한 스타일의 변화에도 불구하고 한 가지는 변하지 않았습니다. 바로 성적입니다.
10년간의 데이터 세트를 살펴보면, 학생들의 추론이나 분석 능력의 전반적인 향상을 나타낼 만한 점수나 평가자 피드백의 급격한 변화는 관찰되지 않았습니다. 저자들은 이러한 안정성이 핵심적인 학업 능력이 여전히 가장 중요하다는 것을 보여주는 증거라고 주장합니다.
연구팀은 결과에 대한 자세한 요약에서 "문체 변화에도 불구하고 학생들의 성적과 피드백은 비교적 안정적으로 유지되었다. 이는 문체 변화가 반드시 높은 점수로 이어지는 것은 아니며, 채점자들이 표면적인 언어 표현보다는 분석적 깊이와 데이터 해석과 같은 요소를 더 중요하게 여길 수 있음을 시사한다"고 밝혔다.
이러한 연구 결과는 인공지능이 평가 방식을 순식간에 뒤바꿀 것이라고 우려했던 교육자들에게는 안도감을 줄 수도 있습니다. 하지만 동시에, 학생들의 완성도 높은 결과물과 그것이 실제로 학습에 대해 보여주는 내용 사이의 격차가 점점 커지고 있음을 보여줍니다.
이번 연구는 캠퍼스 내 생성형 AI 사용이 급증하는 가운데 발표되었습니다. 워릭 연구팀이 인용한 최근 업계 전반의 설문조사에 따르면 학생들의 최대 88%가 평가 목적으로 ChatGPT를 사용한다고 답했습니다. 이러한 사용 범위는 아이디어 생성 및 개요 작성부터 최종 초안 작성 및 편집에 이르기까지 다양합니다.
워릭 연구진은 이번 새로운 데이터가 대학들에게 경고인 동시에 기회이기도 하다고 말합니다.
그들의 분석은 인공지능이 성적에 큰 영향을 미치지 않더라도 학생들의 글쓰기 방식에 이미 변화를 가져오고 있음을 보여줍니다. 그들은 이러한 현실을 바탕으로 교육기관들이 과제 설계 방식, 글쓰기 교육 방식, 그리고 학생들과 책임감 있는 인공지능 사용에 대해 소통하는 방식을 재고해야 한다고 주장합니다.
저자들은 이러한 함의를 논의하면서 “비판적 사고, 해석, 논증과 같은 핵심 학업 능력은 여전히 평가의 중심이며, 적어도 아직까지는 스타일 변화에 가려지지 않았다”고 강조했습니다. 이는 교육자들이 인공지능이 풍부한 환경에서 학생들이 자신만의 독창적인 목소리를 개발할 수 있도록 돕는 동시에 이러한 심층적인 능력을 가르치는 데 더욱 집중할 수 있는 여지를 남겨줍니다.
이번 연구 결과는 단순히 표면적인 점검, 예를 들어 특정 유행어를 사용하거나 지나치게 긍정적인 어조를 보이는지 확인하는 것만으로는 학생들이 AI를 어떻게 활용하는지 파악하기에 충분하지 않다는 점을 시사합니다. 오히려 교수진은 학생들이 어떻게 계획하고, 초안을 작성하고, 수정하는지, 그리고 자신의 생각을 어떻게 명확하게 표현하는지와 같은 과정에 더 집중해야 할 수도 있습니다.
저자들은 이제 교육기관들이 새로운 도구가 나올 때마다 단편적으로 대응하는 대신, 이와 같은 증거를 정책 지침으로 활용하여 앞서 나갈 기회를 얻었다고 주장합니다. 이는 인공지능의 사용 허용 시점에 대한 명확한 지침, 학문적 진실성에 대한 더욱 투명한 논의, 그리고 구두 발표, 수업 중 작문, 반복적인 피드백을 강조하는 새로운 평가 방식 등을 의미할 수 있습니다.
생성형 인공지능이 여러 분야에서 지식 노동의 일상적인 부분이 되어감에 따라, 고등 교육 기관의 관심사는 학생들이 이러한 도구를 사용할지 여부가 아니라 어떻게 사용할지입니다. 워릭 대학의 연구는 현재까지 인공지능이 학생들의 글쓰기 내용보다는 형식과 느낌에 더 큰 변화를 가져오고 있으며, 대학들이 앞으로 어떤 조치를 취하느냐에 따라 이러한 변화가 궁극적으로 학생들의 사고력과 의사소통 능력을 강화할지 약화시킬지가 결정될 것이라고 시사합니다.
출처: 워릭 대학

