Апдейт по слитым веcам: архитектурно это всё таки Stable Audio 2.0 с DiT трансформером, но в качестве...

Апдейт по слитым веcам: архитектурно это всё таки Stable Audio 2.0 с DiT трансформером, но в качестве текстового энкодера у неё T5, не CLAP, как у финальной модели. Конфиг модели для интересующихся: . Может какая-то бета-версия? А Stable Audio 1.0 была основана на Unet, а не на DiT.
Back to Top