Тестировали несколько сервисов:
- Auphonic
- Adobe Enhance Speech
- Davinci Resolve Voice Isolation
- CrumplePop (бывший SoundApp)
Большой плюс Davinci и CrumplePop в том, что они работают локально и без Интернета — не надо ждать подключения и отправлять файлы куда-то на сервера. При этом сами по себе эти сервисы сильно проще конкурентов: они отлично чистят аудио от шума, но не нормализуют его автоматически и не воссоздают потерянные частоты.
У CrumplePop, в сравнении с другими сервисами, есть довольно много настроек. Наверное, если потратить время и вникнуть, можно добиться хорошего результата — но с тем же успехом можно использовать Audition и обработать звук там.
Adobe Enhance Speech справляется неплохо, но звук в итоге получается «плоским» — лишённым деталей, прерывистым, будто кто-то проглотил все низкие и высокие частоты. Ещё в процессе звуковой файл конвертируется в моно-формат — не понятно, зачем это нужно, но сильно усложняет процесс работы (особенно если звук от разных спикеров записывается изначально в 2 канала). При этом если звук у вас сильно плохой, то неожиданно Enhance Speech устроит вам или вашим спикерам английский акцент — сразу видно, что нейросеть тренировали на ограниченном датасете.
Победителем нашего теста стал Auphonic. Он не только удаляет фоновый шум, но балансирует и нормализует аудио, повышает чёткость голоса и восстанавливает его после удаления шума. Сам процесс обработки звука простой — нужно загрузить файл и нажать на кнопку. При желании можно поменять настройки под себя, в отличии от Adobe Enhance Speech они здесь есть. Ещё на сайте можно удалить фоновую музыку, убрать дыхание и моменты тишины.
Единственный минус — сервис платный, и оплатить с российских карт не получится. Но каждому аккаунту доступна обработка 2 часов аудио в месяц, а аккаунты можно при желании создавать до бесконечности — нужна только почта. Ну и если всё-таки решитесь оплатить, то есть несколько вариантов: либо подписка, либо покупка кредитов. Примерно выходит 1-2 доллара за час аудио.