Апдейт по слитым веcам: архитектурно это всё таки Stable Audio 2.0 с DiT трансформером, но в качестве...
Апдейт по слитым веcам: архитектурно это всё таки Stable Audio 2.0 с DiT трансформером, но в качестве текстового энкодера у неё T5, не CLAP, как у финальной модели. Конфиг модели для интересующихся: . Может какая-то бета-версия?
А Stable Audio 1.0 была основана на Unet, а не на DiT.