initWithTitle: 김성훈 업스테이지 대표가 2시간 내에 즉각 대응하여 “솔라 오픈 100B는 외국 모델 가중치를 사용하지 않고 처음부터 학습한 모델”이라고 밝혔다.
서울 강남에서 열린 공개 검증회에서 업스테이지는 학습 로그와 중간 체크포인트를 모두 공개하며 ‘프롬 스크래치’ 개발이라는 입장을 재확인했다.
김성훈 대표는 “처음 해당 그래프를 보고 눈을 의심할 정도로 놀랐지만, 분석의 허점을 확인하고 오히려 안도했다”면서 “통계적 착시에 불과하다”고 일축했다.
임성빈 고려대 통계학과 교수는 “LayerNorm은 초기값이 1로 설정되고 학습 과정에서도 1 근처에서 작은 변화만 일어나기 때문에, 코사인 유사도 수치가 높게 나오는 것이 구조적으로 충분히 가능하다”며 “이 수치만으로 프롬 스크래치가 아니라고 단정하는 것은 통계적으로 무리가 있다”고 설명했다.
전 네이버·카카오 AI 엔지니어 출신 연구자와 마음AI 엔지니어 등은 “같은 모델 안에서도 특정 레이어를 어떻게 선택하느냐에 따라 유사도 값이 크게 달라질 수 있다”며 “비교 기준 자체가 왜곡될 수 있는 분석”이라고 지적했다.
이들은 도용 여부를 판단하려면 단순 유사도 수치가 아니라 학습 로그, 체크포인트, 학습 곡선 등 전체 학습 과정을 종합적으로 봐야 한다고 강조했다.
고석현 사이오닉AI 대표는 “보다 엄밀하게 검증하지 않은 채 공개해 불필요한 혼란을 야기한 점에 대해 사과한다”고 했다.
이후 논의를 ‘직접적 도용’이 아닌 소버린 AI 방향성과 국책 AI 사업에서 해외 코드 활용의 적절성 문제로 전환하면서 한 발 물러선 모양새다.
업계에서는 이번 공개 검증회가 단순한 해명 자리를 넘어, 국내 AI 산업에서 전례를 남긴 사례라는 평가가 나온다.
의혹 제기 이후 기업이 학습 로그와 체크포인트를 전면 공개하고 이를 실시간으로 외부에 검증받은 사례는 사실상 처음이기 때문이다.
업계 관계자는 “기술 논쟁을, 말이 아니라 데이터로 공개 검증한 첫 사례”라며 “향후 국책 AI 사업에서 설명 책임과 검증 기준을 가늠하는 선례가 될 수 있다”고 말했다.
과학기술정보통신부는 5개 정예팀 중 1개 탈락팀이 발생하는 1차 평가를 1월 중순 결과 발표를 목표로 진행 중이다.
이 프로젝트는 프롬 스크래치 모델 개발 여부를 핵심 기준으로 삼고 있다.
@Meerae AI 빅데이터 연구소 meerae.info@gmail.com