2026학년도 대학수학능력시험(수능)이 실시된 지난 13일 오전 인천 미추홀구 인화여자고등학교에서 수험생들이 마지막 문제 풀이를 하고 있다. [

국가대표 인공지능을 목표로 하는 국내 팀들의 기존 대형언어모델(LLM)이 수학 수능 및 논술 문제 풀이에서 해외 모델에 비해 크게 뒤처졌다고 분석됐다. 김종락 서강대 수학과 교수 연구팀은 국내 5개 팀의 주요 LLM과 챗GPT 등 해외 5개 모델에게 수능 수학 20문제, 논술 30문제를 풀게 했다. 연구팀은 공통과목 확률과 통계 미적분 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 설정했고 논술 문제는 국내 10개 대학 기출 문제와 인도 대학입시 10문제 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제를 설정해 총 50개 문제를 10개 모델에 풀게 했다. 한국 모델로는 업스테이지의 솔라 프로-2 LG AI연구원의 엑사원 4.0.1 네이버의 HCX-007 SK텔레콤의 A.X 4.0 72B 엔씨소프트 경량모델 라마 바르코 8B 인스트럭트를 활용했다. 해외 모델에는 GPT-5.1 제미니 3 프로 프리뷰 클라우드 오푸스 4.5 그록 4.1 패스트 딥시크 V3.2 등이 활용됐다. 해외 모델은 76~92점을 받았지만 한국 모델은 솔라 프로2만 58점을 받았고 나머지는 20점대 낮은 점수를 기록했다. 라마 바르코 8B 인스트럭트는 2점으로 가장 낮은 점수를 받았다. 연구팀은 국내 5개 모델의 경우 단순 추론으로는 문제를 대부분 풀지 못해 파이선을 툴로 사용하도록 설계해 문제 적중률을 높였음에도 이런 결과가 나왔다. 연구팀은 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 엔트로피매스 100문제 중 10문제를 구성해 10개 모델에 문제를 풀게 했다. 여기서도 해외 모델은 82.8~90점을 받았다.

자체 개발 문제 생성 알고리즘과 파이프라인을 개선해 수학뿐 아니라 과학 제조 문화 도메인 데이터세트를 생성해 도메인 특화 모델 성능 개선에 기여할 것이라고 했다.

수준부는 자체 문제 세트 엔트로피매스를 기반으로 수학 리더보드를 개설했으며 이를 국제적인 수준으로 키울 것이라고 밝혔다.

국내 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다는 인용문이 포함됐다.

@Meerae AI 빅데이터 연구소 meerae.info@gmail.com

Leave a Reply

Your email address will not be published. Required fields are marked *