2026학년도 대학수학능력시험(수능)이 실시된 지난 13일 오전 인천 미추홀구 인화여자고등학교에서 수험생들이 마지막 문제 풀이를 하고 있다. [

국가대표 인공지능(AI)에 도전 중인 국내 주요 대형언어모델(LLM)들이 수능 수학과 논술 문제 풀이에서 해외 모델에 크게 뒤처진다는 분석 결과가 나왔다.

김종락 서강대 수학과 교수 연구팀은 국내 국가대표 AI 도전 5개 팀의 대표 LLM과 챗GPT 등 해외 5개 모델을 대상으로 수능 수학 20문제와 논술 30문제를 풀게 한 결과를 15일 공개했다.

연구팀은 수능 문제로 공통과목, 확률과 통계, 미적분, 기하에서 최고 난도의 문항 5개씩 총 20문제를 선정했다. 논술 문제는 국내 10개 대학 기출 문제, 인도 대학입시 수학 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제로 구성해 총 50문항을 10개 모델에 제시했다.

국내 모델로는 업스테이지의 솔라 프로-2, LG AI연구원의 엑사원 4.0.1, 네이버 HCX-007, SK텔레콤의 A.X 4.0(72B), 엔씨소프트의 경량 모델 라마 바르코 8B 인스트럭트가 활용됐다. 해외 모델은 GPT-5.1, 제미니 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 대상이었다.

수능 20문제+논술 30문제 풀이 점수. 서강대 김종락 교수팀 제공

평가 결과 해외 모델은 76점에서 92점 사이의 점수를 기록한 반면, 국내 모델은 솔라 프로-2만 58점을 받았고 나머지는 20점대에 머물렀다. 라마 바르코 8B 인스트럭트는 2점으로 최저점을 기록했다.

연구팀은 국내 모델의 경우 단순 추론만으로 문제 해결이 어려워 파이썬 도구 사용을 허용했음에도 성능 격차가 컸다고 설명했다.

이어 연구팀은 대학 수준부터 교수급 연구 난이도까지 세분화한 자체 문제 세트 엔트로피매스 100문제 중 10문항을 선별해 추가 실험을 진행했다. 이 평가에서도 해외 모델은 82.8점에서 90점을 기록했지만, 국내 모델은 7.1점에서 53.3점에 그쳤다.

엔트로피매스 10문제 풀이 점수. 서강대 김종락 교수팀 제공

세 차례까지 풀이를 시도해 정답을 맞히면 통과하는 방식으로 실험을 진행했다.

@Meerae AI 빅데이터 연구소 meerae.info@gmail.com

Leave a Reply

Your email address will not be published. Required fields are marked *