Как очистить звук с помощью нейросети?

Провели сегодня на студии полезный тест — какая нейросеть лучше обрабатывает записи с микрофона? Особенно пригодится это для тех, кто снимает видео и записывает подкасты или интервью.

Тестировали несколько сервисов:

  • Auphonic
  • Adobe Enhance Speech
  • Davinci Resolve Voice Isolation
  • CrumplePop (бывший SoundApp)

Большой плюс Davinci и CrumplePop в том, что они работают локально и без Интернета — не надо ждать подключения и отправлять файлы куда-то на сервера. При этом сами по себе эти сервисы сильно проще конкурентов: они отлично чистят аудио от шума, но не нормализуют его автоматически и не воссоздают потерянные частоты.

У CrumplePop, в сравнении с другими сервисами, есть довольно много настроек. Наверное, если потратить время и вникнуть, можно добиться хорошего результата — но с тем же успехом можно использовать Audition и обработать звук там.

Adobe Enhance Speech справляется неплохо, но звук в итоге получается «плоским» — лишённым деталей, прерывистым, будто кто-то проглотил все низкие и высокие частоты. Ещё в процессе звуковой файл конвертируется в моно-формат — не понятно, зачем это нужно, но сильно усложняет процесс работы (особенно если звук от разных спикеров записывается изначально в 2 канала). При этом если звук у вас сильно плохой, то неожиданно Enhance Speech устроит вам или вашим спикерам английский акцент — сразу видно, что нейросеть тренировали на ограниченном датасете.

Победителем нашего теста стал Auphonic. Он не только удаляет фоновый шум, но балансирует и нормализует аудио, повышает чёткость голоса и восстанавливает его после удаления шума. Сам процесс обработки звука простой — нужно загрузить файл и нажать на кнопку. При желании можно поменять настройки под себя, в отличии от Adobe Enhance Speech они здесь есть. Ещё на сайте можно удалить фоновую музыку, убрать дыхание и моменты тишины.

Единственный минус — сервис платный, и оплатить с российских карт не получится. Но каждому аккаунту доступна обработка 2 часов аудио в месяц, а аккаунты можно при желании создавать до бесконечности — нужна только почта. Ну и если всё-таки решитесь оплатить, то есть несколько вариантов: либо подписка, либо покупка кредитов. Примерно выходит 1-2 доллара за час аудио.

//Илья Власов