Лучший бесплатный генератор музыки за считанные секунды?

Вышла новая интересная модель для генерации музыки — DiffRhythm. Она уже успела вызвать немало шума, а некоторые даже поспешили назвать ее «убийцей Suno». Но так ли это на самом деле?

DiffRhythm действительно впечатляет — она способна создавать полноценные музыкальные композиции с вокалом и аккомпанементом неожиданно быстро. Песня длительностью почти пять минут генерируется всего за десять секунд. Модель использует диффузионную архитектуру, из-за чего достигает относительно высокого качества звука и разборчивости вокала (об этом дальше).

Но спешить с выводами пока не стоит. Технология новая, и недостатков у неё пока довольно много. Качество сгенерированных треков оставляет желать лучшего, вокал получается плавающий, слова съедаются, голос как из бочки и неестественный, много режущих звуков. На данный момент модель лучше всего справляется с инструментальной музыкой, и то с оговорками. Попробовать самим можно на HuggingSpace.

Очень странной для пользователей остаётся схема работы, когда ты не можешь описать нужный тебе стиль словами, а должен искать 10-секундный референс и загружать его для модели. Да, там есть возможность использовать для этого другую нейросеть, но интерфейс пока сложный и многоступенчатый. А самое главное — здесь нет русского языка. Обещают добавить, но в Suno всё работает уже сейчас…

Но DiffRhythm важна тем, что делает шаг в сторону скорости и доступности генерации. Через несколько поколений мы вполне можем увидеть генераторы, которые будут локально делать музыку для приложений, игр и видео на телефоне. И многие компании работают в этом направлении, с упором на скорость и интерактивность. Недавно Google рассказали о ReaLJam AI, который анализирует музыку пользователя, подстраивается под неё и начинает играть в дуэте — всё это в реальном времени.

//Илья Власов