DiffRhythm действительно впечатляет — она способна создавать полноценные музыкальные композиции с вокалом и аккомпанементом неожиданно быстро. Песня длительностью почти пять минут генерируется всего за десять секунд. Модель использует диффузионную архитектуру, из-за чего достигает относительно высокого качества звука и разборчивости вокала (об этом дальше).
Но спешить с выводами пока не стоит. Технология новая, и недостатков у неё пока довольно много. Качество сгенерированных треков оставляет желать лучшего, вокал получается плавающий, слова съедаются, голос как из бочки и неестественный, много режущих звуков. На данный момент модель лучше всего справляется с инструментальной музыкой, и то с оговорками. Попробовать самим можно на HuggingSpace.
Очень странной для пользователей остаётся схема работы, когда ты не можешь описать нужный тебе стиль словами, а должен искать 10-секундный референс и загружать его для модели. Да, там есть возможность использовать для этого другую нейросеть, но интерфейс пока сложный и многоступенчатый. А самое главное — здесь нет русского языка. Обещают добавить, но в Suno всё работает уже сейчас…
Но DiffRhythm важна тем, что делает шаг в сторону скорости и доступности генерации. Через несколько поколений мы вполне можем увидеть генераторы, которые будут локально делать музыку для приложений, игр и видео на телефоне. И многие компании работают в этом направлении, с упором на скорость и интерактивность. Недавно Google рассказали о ReaLJam AI, который анализирует музыку пользователя, подстраивается под неё и начинает играть в дуэте — всё это в реальном времени.