Case studies
Artificial Intelligence
일본 메타버스를 위한 버추얼 인플루언서

과제: 일본 메타버스 이용자를 위한 실시간 대화형 영상 생성용 최첨단 AI 기술 개발
해결 방안: 버추얼 인플루언서에 초점을 맞춘 일본 메타버스 이용자의 니즈에 맞춰, 실시간으로 고품질의 대화형 AI 아바타를 생성하기 위한 최첨단 AI 기술 개발이 진행되었습니다. 이를 위해 AI 모델에 대한 혁신적인 연구와, 일본어 성능 향상을 위한 음성 인식 모델의 맞춤형 파인튜닝이 함께 수행되었습니다.
주요 성과:
- 실시간 고품질 대화형 AI 캐릭터
- 최첨단 솔루션
- 향상된 AI 기능
- 일본어 음성 인식에서 우수한 성능
- 영상 생성의 효율성 개선
- 더 빠른 처리 속도와 고해상도 출력
성과 지표:
음성-텍스트 변환:
- 처리 시간 75% 감소
- (시장 기준 대비) 일본어 음성 인식 정확도 15% 향상
영상 생성:
- 음성과 입 모양의 정합도 100% 향상
- 동일한 GPU 사용으로 해상도 96x96에서 256x256으로 증가
- 실시간 입력과 출력 사이의 지연 시간 45초에서 3초 미만으로 감소
- 기존 도구 대비 영상 제작 비용 90% 이상 절감
VMO와 함께 이 스타트업은 메타버스 플랫폼을 위한 가상 커뮤니케이션을 혁신하고자 나섰습니다.
해결책은 두 가지 주요 구성 요소로 이루어졌습니다. 첫 번째는 고품질의 실시간 대화형 아바타 생성을 위한 AI 모델의 연구 및 개발이었습니다.
이 모델들은 현실적인 입 모양 동기화와 표정을 갖춘 동적 영상 생성을 지원해야 했으며, 그래픽 처리 장치(GPU)의 사용량이 적도록 최적화되어야 했습니다.
이에 더해, 상용 대안이 부족한 상황을 보완하기 위해 일본어 데이터에 최적화된 음성 인식 모델의 파인튜닝이 진행되었습니다.
이 파인튜닝은 일본어 음성 인식 정확도를 상당히 향상시켰습니다.
영상 생성의 효율성 향상으로 더 빠른 처리 속도와 더 높은 해상도 출력이 가능해졌습니다.
첫 번째 AI 입 모양 동기화 모델은 2023년 9월에 가짜 영상 입 모양 동기화(faked video lip-sync) 기능으로 프로덕션에 도입되었습니다.
현재의 버전은 실제 입 모양 동기화(real lip-sync) 기능을 갖추고 있으며, 2024년 1월에 프로덕션에 도입되었습니다.
모델 학습에는 Nvidia GPU H100이 사용되어 고강도의 모델 학습 작업이 수행되었습니다.
음성 인식 벤치마킹은 Whisper API 및 다양한 사전 학습 모델을 활용해 OpenAI 및 Google ASR과 같은 업계 표준과 비교 분석되었습니다.
고급 AI 모델로는 고품질, GPU 집약적 영상 생성을 위한 SadTalker가 포함되었습니다.
ER-NERF는 정적인 신체 이미지를 스트리밍 가능한 AI 영상으로 변환하는 데 사용되었으며, GPU 사용량이 낮도록 최적화되었습니다.
Wav2Lip은 양질의 전체 신체 동작을 효율적으로 구현할 수 있게 해주었습니다.
맞춤형 일본어 데이터셋이 파인튜닝에 활용되었으며, 내부 전처리 및 최적화 기법이 함께 사용되었습니다.
최첨단 솔루션은 거의 실시간 영상 생성을 가능하게 하였고, 처리 시간을 45초에서 5초로 줄였으며 해상도는 96×96이었습니다.
VMO의 AI는 영상 품질을 향상시켜 256×256 픽셀의 해상도와 3초 이내의 생성 시간을 달성했습니다.
일본어 음성 인식 성능에서는 단어 오류율(WER) 18.01을 기록하여 OpenAI Whisper(21.11 WER) 및 Google ASR(27.74 WER)보다 뛰어난 성능을 보였으며, 일본어 지원에서 뚜렷한 강점을 제공했습니다.
이러한 혁신적인 AI 기술의 적용은 일본 사용자들에게 지금까지 경험하지 못했던 아바타 생성 기술을 제공하며, 그들의 니즈와 선호에 초점을 맞춘 메타버스 내 새로운 영역을 열어가고 있습니다.
