Вместо этого в модели используется особый алгоритм, называемый Гриффином-Лимом, для аппроксимации фазовых сдвигов по мере того, как аудиоклип реконструируется в спектрограмму.
Спектрограмма генерируется и далее в системе ИИ преобразуется в аудио.
Модели распространения для генерации изображения в изображение
Можно настроить создание диффузионной модели для работы с текстом и изображениями. Команда Stable Diffusion утверждает, что это полезный модификатор звуков, при этом сохраняется исходный звук.
Могут быть отклонения в запросе нового изображения от многих различных типов исходных клипов, использующих параметр силы шумоподавления. В этих изображениях спектрограммы вы можете обрабатывать изолированные звуки, как если бы у вас было несколько дорожек на записывающей ленте, созданных из исходного изображения.
Создание длинных аудиоклипов
Более короткие аудиоклипы, сгенерированные из спектрограммы, очень интересны, но реальная функция системы Stable Diffusion AI заключается в создании бесконечного звука, сгенерированного AI, например, песен и инструментальных композиций.
Если ИИ используется для 100 клипов, объединение этих клипов невозможно из-за всех различий в темпе, тональности, тональности и ритме. Способ обойти эту проблему — использовать одно изображение.
Взятие одного изображения и создание нескольких вариаций оригинала в изображении для шумоподавления изображения для выделения определенных инструментов и звуков. Использование различных сидов и подсказок сохраняет исходные жизненные свойства клипов.