경기도 성남시 카카오 판교 아지트 모습. 사진=

카카오가 텍스트·음성·이미지를 동시에 이해하고 실시간으로 답변하는 멀티모달 언어모델 ‘카나나-o’와 멀티모달 임베딩 모델 ‘카나나-v-임베딩’의 개발 과정과 성능을 공개했다.

카나나-o는 텍스트, 음성, 이미지를 동시에 이해하고 실시간으로 답변하는 통합 멀티모달 언어모델이다. 기존 멀티모달 모델이 음성 대화 환경에서 추론 능력이 떨어진다는 한계를 보완하기 위해 지시 이행 능력을 고도화했다.

카나나-o는 고품질 음성 데이터와 직접 선호 최적화(DPO) 기술을 적용해 억양과 감정 표현 능력을 개선했다. 멀티턴 대화에서도 끊김 없는 자연스러운 대화가 가능하도록 설계됐다.

카나나-v-임베딩은 텍스트와 이미지를 동시에 이해하는 이미지 검색 특화 모델이다. 현재 카카오 내부 광고 심사와 유사도 분석 시스템에 활용되고 있다.

카카오는 향후 온디바이스 환경에서 동작 가능한 경량 멀티모달 모델과 차세대 모델 ‘카나나-2’ 개발도 추진할 계획이다.

‘명일방주: 엔드필드’는 내년 1월 26일 글로벌 시장에 정식 출시한다. 정식 출시 버전에는 테스트 과정에서 수렴한 유저 커뮤니티 피드백이 반영될 예정이다.

**중요**: 본문은 2-3문장마다 단락을 나누세요 (

사용). 인용문은 별도 단락으로 구분하세요. 완벽한 온라인 기사 형식을 따르세요.

카카오 “한국 최적화 AI 목표로 연구·개발 지속”

카카오 “AI가 실제 통신망에서 사용자 경험 향상을 가져올 수 있다는 점을 확인한 의미 있는 성과”

카카오 “지속적인 기술 고도화와 검증을 통해 AI 중심의 미래 통신 기술을 선도해 나갈 것”

카카오 “이번 검증은 AI가 네트워크 운영을 사용자 중심으로 혁신할 수 있다는 가능성을 입증한 사례”

카카오 “맞춤형 최적화 기술을 고도화해 안정적이고 끊김 없는 서비스를 제공하고, 6G 핵심 기술 확보에 나서겠다”

@Meerae AI 빅데이터 연구소 meerae.info@gmail.com

Leave a Reply

Your email address will not be published. Required fields are marked *