한동수 교수 연구팀은 한국과학기술원KAIST에서 데이터센터 밖에 널리 보급된 저렴한 소비자급 GPU를 활용해 대규모 언어모델LLM 인프라 비용을 크게 낮출 수 있는 ‘스펙엣지SpecEdge’ 기술을 개발했다. 기존 인프라에 비해 토큰당 비용을 약 67.6% 절감할 수 있다.
스펙엣지는 데이터센터 GPU와 개인 PC나 소형 서버 등에 탑재된 엣지 GPU가 역할을 나누어 LLM 추론 인프라를 구성한다. 연구팀은 ‘추측적 디코딩Speculative Decoding’ 방식을 적용해 엣지 GPU에 배치된 소형 언어모델이 확률이 높은 토큰 시퀀스를 빠르게 생성하고, 데이터센터의 대규모 언어모델이 이를 일괄 검증한다.
이 과정에서 엣지 GPU는 서버의 응답을 기다리지 않고 계속 단어를 만들어 LLM 추론 속도와 인프라 효율을 동시에 높인다. 데이터센터 GPU에서만 추측적 디코딩을 수행하는 방식과 비교해 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상됐다.
서버는 여러 엣지 GPU의 검증 요청을 효율적으로 처리하도록 설계되어 GPU 유휴 시간 없이 더 많은 요청을 동시에 처리할 수 있다. 이로 인해 데이터센터 자원을 보다 효율적으로 활용할 수 있는 LLM 서빙 인프라 구조를 구현했다.
연구는 데이터센터에 집중돼 있던 LLM 연산을 엣지로 분산시켰으며, 일반적인 인터넷 속도에서도 문제없이 작동해 별도의 특수한 네트워크 환경 없이도 실제 서비스에 바로 적용할 수 있음을 확인했다.
이번 연구논문명: SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs에는 KAIST 박진우 박사와 조승근 석사과정이 참여했으며, 연구 결과는 미국 샌디에이고에서 열린 신경정보처리시스템 학회NeurIPS에서 스포트라이트로 발표됐다.
한동수 교수는 “데이터센터를 넘어 사용자의 주변에 있는 엣지 자원까지 LLM 인프라로 활용하는 것이 목표”라며 “이를 통해 AI 서비스 제공 비용을 낮추고 누구나 고품질 AI를 활용할 수 있는 환경을 만들고자 한다”고 말했다.
@Meerae AI 빅데이터 연구소 meerae.info@gmail.com
