카카오, 멀티모달 AI 2종 공개

카카오가 사람처럼 보고, 듣고, 말하며 한국어와 한국 문화를 가장 잘 이해하는 고도화된 멀티모달 인공지능(AI) 기술의 연구 성과를 공개했다.

카카오는 12일 테크블로그를 통해 한국적 맥락 이해에 최적화된 통합 멀티모달 언어모델 ‘카나나-오’와 멀티모달 임베딩 모델 ‘카나나-브이-임베딩’의 개발 과정과 성능을 발표했다.

‘카나나-오’는 텍스트와 음성, 이미지를 동시에 이해하고 실시간으로 답변하는 통합 멀티모달 언어모델이다. 글로벌 모델 대비 한국어 맥락 이해에서 높은 성능을 보유했다.

카나나-오와 글로벌 경쟁모델 벤치마크 성능을 비교했을 때 GPT-4o 등 글로벌 프론티어 모델과 유사한 영어 성능을 기록했다.

카카오는 기존 멀티모달 모델들이 텍스트 입력 시 강점을 보이지만 음성 대화 시에는 답변이 다소 단순해지고 추론 능력이 떨어진다는 한계에 집중했다.

이를 보완하기 위해 카나나-오의 지시이행 능력을 고도화해 사용자의 숨은 의도와 복잡한 요구사항까지 파악할 수 있도록 개선했다.

이와 함께 자체 구축한 데이터셋으로 학습을 진행해 다양한 모달리티의 입출력에 대해서도 기존 언어모델의 성능을 유지하고, 단순 질의응답을 넘어 요약, 감정·의도 해석, 오류 수정, 형식 변환, 번역 등 다양한 과업을 수행할 수 있도록 성능을 끌어올렸다.

감정 표현 능력까지 향상시켰다. 고품질 음성 데이터와 직접 선호 최적화(DPO) 기술을 적용해 억양·감정·호흡 등을 정교하게 학습시킨 덕분이다.

기쁨·슬픔·분노·공포 등 상황 별 생생한 감정은 물론 미세한 음색·어조 변화 등에 따른 감정 표현 능력까지 가능하다.

호스트와 게스트가 대화를 주고받는 ‘팟캐스트’ 형태의 데이터셋을 구축해, 끊김 없이 자연스럽게 이어지는 멀티턴(Multi-turn) 대화도 가능해졌다고 한다.

**중요**: 본문은 2-3문장마다 단락을 나누세요 (

사용). 인용문은 별도 단락으로 구분하세요. 완벽한 온라인 기사 형식을 따르세요.

@Meerae AI 빅데이터 연구소 meerae.info@gmail.com