Компания Google разработала сквозной кодек SoundStream на базе искусственного интеллекта. Он обеспечивает на выходе высокое качество при кодировании различных типов звука, включая речь, работает в реальном времени на процессоре смартфона и, по словам его создателей, крайне нетребователен к скорости передачи данных.
В основе SoundStream, который стал усовершенствованной версией выпущенного Google ранее аудиокодека Lyra, лежит нейросеть. Она преобразует звук в кодированный сигнал, который сжимается с помощью квантователя и преобразуется обратно в аудиодорожку посредством декодера.
Все эти элементы проходят сквозное обучение с имитацией переменной скорости передачи данных. Количество слоёв квантователя в SoundStream контролирует битрейт — во время обучения некоторые из них случайным образом «выпадают», имитируя «просадки» соединения. Это со временем заставляет декодер работать хорошо при любой скорости входящего потока.
Обычно при обработке звука сжатие и его улучшение (удаление фонового шума) выполняется разными модулями, но в SoundStream это происходит одновременно. По заявлению Google, при скорости 3 кбит/с SoundStream превосходит популярный кодек Opus на скорости 12 кбит/с и приближается к качеству EVS на скорости 9,6 кбит/с, используя почти в четыре раза меньше битов.
Сейчас кодек SoundStream проходит стадию внутреннего тестирования, и точная дата его коммерческого запуска пока неизвестна.