카카오가 한국어 구사 능력과 한국 문화 이해도가 높은 최신 인공지능 기술 ‘카나나-o’ 연구 성과를 12일 공개했다.
카카오의 멀티모달 언어모델 카나나-o는 사람처럼 보고 듣고 말하면서 자연스러운 표현력을 갖췄다.
단순 질의응답을 넘어 요약, 감정·의도 해석, 오류 수정, 번역 등 다양한 과업을 수행할 수 있다.
카카오 관계자는 “고품질 음성 데이터와 사람의 선호도에 따라 AI 모델 가중치를 조정하는 직접 선호 최적화(DPO) 기술을 적용해 억양과 감정, 호흡 등을 정교하게 학습시켰다”고 설명했다.
벤치마크 평가 결과 카나나-o는 영어 음성 성능에서 오픈AI의 GPT-4o와 비슷한 수준을 보였다.
한국어 음성 인식과 합성, 감정 인식에선 GPT-4o보다 점수가 높았다.
카나나-o는 텍스트와 음성, 이미지를 동시에 이해하고 실시간으로 답변하는 통합 멀티모달 언어모델이다.
카카오는 기존 멀티모달 모델들이 텍스트 입력 시 강점을 보이지만 음성 대화 시에는 답변이 다소 단순해지고 추론 능력이 떨어진다는 한계에 집중했다.
이를 보완하기 위해 카나나-오의 지시이행 능력을 고도화해 사용자의 숨은 의도와 복잡한 요구사항까지 파악할 수 있도록 개선했다.
감정 표현 능력까지 향상시켰다. 고품질 음성 데이터와 직접 선호 최적화(DPO) 기술을 적용해 억양·감정·호흡 등을 정교하게 학습시킨 덕분이다.
기쁨·슬픔·분노·공포 등 상황 별 생생한 감정은 물론 미세한 음색·어조 변화 등에 따른 감정 표현 능력까지 가능하다.
카카오는 12일 테크블로그를 통해 △한국적 맥락 이해에 최적화된 통합 멀티모달 언어모델 ‘카나나-오’와 △멀티모달 임베딩 모델 ‘카나나-브이-임베딩’의 개발 과정과 성능을 공개했다.
카나나-오와 글로벌 경쟁모델 벤치마크 성능을 비교했을 때 GPT-4o 등 글로벌 프론티어 모델과 유사한 영어 성능을 기록했다.
**중요**: 본문은 2-3문장마다 단락을 나누세요 (
) 사용. 인용문은 별도 단락으로 구분하세요. 완벽한 온라인 기사 형식을 따르세요.
@Meerae AI 빅데이터 연구소 meerae.info@gmail.com
