文本生成音效 Stable-Audio-Open

一个免费、开源且强大的文本转音效模型,让你可以生成各种音效。



UserUserUserUserUser


Free Online Stable-Audio-Open


什么是 stable audio open ?

Stable Audio Open 允许任何人通过简单的文本提示生成长达 47 秒的高质量音频数据。其专业训练使其非常适合为音乐制作和声音设计创建鼓点、乐器连复段、环境声音、拟音录音和其他音频样本。

Feature

开源优势

完全免费,开源文本到音频模型,用于生成长达 47 秒的样本和声音效果。

特殊训练

模型基于FreeSound和Free Music Archive的数据集进行训练,尊重创作者权利。

易于微调定制

用户可以使用自己的音频数据对模型进行微调,适应特定需求.

与商业版不同

Stable Audio Open 专注于生成较短的音频片段和声音设计元素。

社区反馈

在huggingface上模型开源,可以自行部署使用。

How to use Stable Audio Open?

Illustration of a person interacting with a robot on a computer screen

Let's get started with Stable Audio Open in just a few simple steps.

1

Download model from huggingface

git clone https://huggingface.co/stabilityai/stable-audio-open-1.0
2

Install Dependencies

pip install torch torchaudio stable_audio_tools einops
3

Import Required Libraries


      import torch
      import torchaudio
      from einops import rearrange
      from stable_audio_tools import get_pretrained_model
      from stable_audio_tools.inference.generation import generate_diffusion_cond
      import gradio as gr
4

Load model


      model, model_config = get_pretrained_model('stabilityai/stable-audio-open-1.0')
      model = model.to(device)
5

Generate Audio


      output = generate_diffusion_cond(
        model,
        steps=100,
        cfg_scale=7,
        conditioning=conditioning,
        sample_size=sample_size,
        sigma_min=0.3,
        sigma_max=500,
        sampler_type="dpmpp-3m-sde",
        device=device
    )
6

Output save audio


      # Rearrange audio batch to a single sequence
      output = rearrange(output, "b d n -> d (b n)")

      # Peak normalize, clip, convert to int16, and save to file
      output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
      torchaudio.save("output.wav", output, sample_rate)
      

FAQs

这里有一些最常见的问题。

Stable Audio Open是一个开源的文本到音频模型,用于生成音频样本和音效。它允许用户从简单的文本提示生成最长47秒的高质量音频。

Stable Audio Open专注于生成短音频片段和音效,而商业版本可以创建最长三分钟的完整曲目和复杂作品。

可以,用户可以使用自己的音频数据对Stable Audio Open进行微调,以生成个性化的音效和音频样本。

你可以生成鼓节拍、乐器段落、环境声音、拟音录音和制作元素。

模型权重在Hugging Face上可用。

是的,它是完全免费和开源的。

该模型基于FreeSound和Free Music Archive的数据集进行训练。

可以,作为开源模型,它可以用于个人和商业用途。

该模型根据文本提示生成音频,因此支持用户提供的任何语言输入。

你可以从Hugging Face下载模型,并按照提供的教程和文档进行操作。

该模型可以在任何支持PyTorch并具有足够GPU或CPU资源的系统上运行。

有的,你可以加入Discord社区进行支持和讨论。

它是以开源许可发布的。

可以,你可以通过提供反馈、报告问题和在GitHub上提交拉取请求来做出贡献。

开发者可以访问文档、社区论坛,并通过Discord频道获得直接支持。

虽然它可以生成简短的音乐片段,但并未优化用于完整的歌曲、旋律或人声。

该模型基于多样化的数据集进行训练,并针对高质量的音频生成进行微调。

暂时官方还没发布具体的仓库,只发布了模型。

你可以使用其API将模型集成到你的应用程序中。

音频到音频生成修改现有音频,而文本到音频生成根据文本提示创建新的音频。