딥마인드, 오디오 생성 기반 기술 ‘사운드스트림’과 ‘오디오LM’ 소개

“최신 음성 생성 기술은 대화 스크립트와 화자 전환 표시(speaker turn markers)만 주어지면 2분 분량의 대화를 화자 일관성을 가진 높은 오디오 품질로 생성할 수 있다. 이 모델은 단일 텐서 프로세싱 유닛(TPU) v5e 칩에서 3초 이내에 한 번의 추론 패스로 이 작업을 수행한다. 즉, 실시간보다 40배 이상 빠르게 오디오를 생성한다.”

구글 딥마인드(DeepMind)가 그동안 진행해 온 오디오 생성 연구의 기반이 된 기술 개요를 ‘오디오 세대의 지평을 넓히다‘라는 제목으로 블로그를 통해 소개했다. 단순한 소리 생성과 합성에서 시작한 오디오 생성 연구는 이제 실제 사람의 목소리를 완벽에 가깝게 생성하는 것은 물론이고 어조, 음색, 감정 표현까지 실제 사람과 구분하기 힘들 만큼 구현하는 단계에 이르렀다.

사운드스트림(SoundStrem)과 오디오LM(AudioLM)은 딥마인드가 오디오 생성 연구의 기반을 닦고 생성 모델을 확장하는 데 기반이 된 기술이다. 사운드스톰에 대한 이전 연구에서 여러 화자의 자연스러운 대화를 30초 분량을 생성하는 기능을 처음 생성했고, 이를 확장해 사운드스트림과 오디오LM에 다양한 텍스트 기반 언어 모델링 기술을 적용했다.

사운드스트림은 오디오 입력 품질에 영향을 주지 않고 효율적인 압축 및 압축 해제가 가능한 신경 오디오 코덱으로, 학습 과정의 일부로 오디오를 다양한 음향 토큰에 매핑하는 방법을 학습한다. 토큰은 운율, 음색 등의 오디오 속성을 포함하여 높은 오디오 충실도로 재구성하는 데 필요한 모든 정보를 캡처한다.



Source link

Leave a Comment