AI가 박사학위 수준의 역사 시험에 합격할 수 있을까?

다양한 분야에서 뛰어난 성과를 거두었음에도 불구하고 AI는 전문가 수준의 역사 지식에서 여전히 부족하며, 최고 성능을 보이는 모델은 정확도에서 46%에 불과합니다. 이 연구는 역사 연구에서 AI의 한계와 미래 잠재력을 강조합니다.

인공지능 챗봇은 고객 서비스에서 법률 연구에 이르기까지 다양한 분야에 혁명을 일으켰지만, 새로운 연구 결과에 따르면 이러한 시스템은 여전히 ​​복잡한 역사적 지식에 어려움을 겪고 있습니다. 복잡성 과학자와 AI 전문가 팀은 최근 ChatGPT-4를 포함한 고급 언어 모델의 성능을 박사 학위 수준의 역사 문제에 대해 평가했습니다. 그 결과는 다음과 같습니다. 제시 밴쿠버에서 열린 NeurIPS 컨퍼런스에서 연구자들은 역사적 이해에 있어 상당한 차이가 있음을 보여주었습니다.

Complexity Science Hub(CSH)의 복잡성 과학자인 Peter Turchin과 University College London의 조교수인 Maria del Rio-Chanona가 이끄는 이 연구는 ChatGPT-4 Turbo, Llama, Gemini와 같은 AI 모델을 Seshat Global History Databank를 사용하여 개발한 엄격한 벤치마크와 비교 테스트했습니다. 이 벤치마크에는 약 600개 사회, 36,000개 이상의 데이터 포인트, 2,700개 이상의 학술 참고 문헌이 포함되었습니다.

“ChatGPT와 같은 대규모 언어 모델(LLM)은 일부 분야에서 엄청난 성공을 거두었습니다. 예를 들어, 그들은 대부분 법률 보조원을 대체함으로써 성공했습니다. 하지만 과거 사회, 특히 북미와 서유럽 외부에 위치한 사회의 특성에 대한 판단을 내리는 데 있어서는 그들의 판단 능력이 훨씬 더 제한적입니다.” 사회적 복잡성과 붕괴에 대한 CSH 연구 그룹을 이끄는 Turchin은 다음과 같이 말했습니다. 보도 자료.

이전 반복에서 개선되었음에도 불구하고, 가장 성능이 좋은 모델인 GPT-4 Turbo는 대학원생을 대상으로 설계된 객관식 역사 시험에서 46%의 정확도만 달성했습니다. 이는 무작위 추측에서 예상되는 25%의 정확도보다 나았지만, AI가 미묘한 역사적 맥락을 이해하는 데 한계가 있음을 강조합니다.

CSH의 외부 교수이자 해당 저자인 델 리오-차노나는 "AI 챗봇이 훨씬 더 잘할 것이라고 생각했습니다."라고 덧붙였습니다. "역사는 종종 사실로 여겨지지만, 때로는 그것을 이해하기 위해 해석이 필요합니다."

이 연구에서 가장 놀라운 결과 중 하나는 AI 기능의 도메인 특이성이었습니다.

"이 결과는 인공 '지능'이 매우 도메인 특정적이라는 것을 보여줍니다. LLM은 어떤 맥락에서는 잘하지만, 다른 맥락에서는 인간에 비해 매우 형편없습니다."라고 Turchin은 덧붙였습니다.

성과는 다른 기간과 지리적 지역에 따라 현저히 달랐습니다. AI 모델은 고대 역사, 특히 기원전 8,000년에서 기원전 3,000년에 대한 질문에 더 정확했지만, 기원후 1,500년부터 현재까지의 최근 역사적 사건에는 상당히 어려움을 겪었습니다.

지리적 초점에 따라 정확도에도 눈에 띄는 차이가 있었는데, OpenAI와 같은 모델은 라틴 아메리카와 카리브해 지역에서는 성과가 좋았지만, 사하라 이남 아프리카 지역에서는 성과가 떨어졌습니다.

CSH의 주재 과학자이자 제1 저자인 야콥 하우저는 이러한 벤치마크를 설정하는 것이 왜 중요한지 설명했습니다.

"우리는 이 LLM들이 전문가 수준의 역사 지식을 다룰 수 있는 능력을 평가하기 위한 벤치마크를 설정하고 싶었습니다. Seshat Databank를 통해 '일반 지식' 질문을 넘어설 수 있습니다." 그는 보도자료에서 이렇게 말했습니다.

이 연구는 AI 모델이 법률 시스템과 사회적 복잡성과 같은 특정 범주에서는 탁월했지만 차별과 사회적 이동성과 관련된 주제에서는 부족했다는 점을 강조했습니다.

"이 연구의 주요 요점은 LLM이 인상적이기는 하지만 여전히 고급 역사에 필요한 심층적 이해가 부족하다는 것입니다. 기본적인 사실에는 좋지만, 더 미묘한 박사 수준의 역사적 탐구에 관해서는 아직 그 과제에 부응하지 못합니다."라고 del Rio-Chanona가 덧붙였습니다.

옥스퍼드 대학과 앨런 튜링 연구소의 전문가가 포함된 연구팀은 앞으로 데이터 세트를 확장하고 벤치마크를 개선하여 더욱 다양하고 복잡한 역사적 질문을 포함하는 것을 목표로 합니다.

하우저는 "우리는 다양한 지역, 특히 글로벌 사우스의 추가 데이터 포인트를 통합하여 벤치마크를 계속 개선할 계획입니다."라고 덧붙였습니다. "또한 o3와 같은 최신 LLM 모델을 테스트하여 이 연구에서 발견된 격차를 메울 수 있는지 확인하고자 합니다."

이러한 연구 결과는 역사가와 AI 개발자 모두에게 중요한 통찰력을 제공하고, 개선이 필요한 분야와 역사 연구에 AI를 더 잘 통합할 수 있는 잠재력을 강조합니다.