文本生成音效 Stable-Audio-Open

一个免费、开源且强大的文本转音效模型，让你可以生成各种音效。

Free Online Stable-Audio-Open

什么是 stable audio open ?

Stable Audio Open 允许任何人通过简单的文本提示生成长达 47 秒的高质量音频数据。其专业训练使其非常适合为音乐制作和声音设计创建鼓点、乐器连复段、环境声音、拟音录音和其他音频样本。

Feature

开源优势

完全免费，开源文本到音频模型，用于生成长达 47 秒的样本和声音效果。

特殊训练

模型基于FreeSound和Free Music Archive的数据集进行训练，尊重创作者权利。

易于微调定制

用户可以使用自己的音频数据对模型进行微调，适应特定需求.

与商业版不同

Stable Audio Open 专注于生成较短的音频片段和声音设计元素。

社区反馈

在huggingface上模型开源，可以自行部署使用。

How to use Stable Audio Open?

Illustration of a person interacting with a robot on a computer screen

Let's get started with Stable Audio Open in just a few simple steps.

Download model from huggingface

git clone https://huggingface.co/stabilityai/stable-audio-open-1.0

Install Dependencies

pip install torch torchaudio stable_audio_tools einops

Import Required Libraries


      import torch
      import torchaudio
      from einops import rearrange
      from stable_audio_tools import get_pretrained_model
      from stable_audio_tools.inference.generation import generate_diffusion_cond
      import gradio as gr

Load model


      model, model_config = get_pretrained_model('stabilityai/stable-audio-open-1.0')
      model = model.to(device)

Generate Audio


      output = generate_diffusion_cond(
        model,
        steps=100,
        cfg_scale=7,
        conditioning=conditioning,
        sample_size=sample_size,
        sigma_min=0.3,
        sigma_max=500,
        sampler_type="dpmpp-3m-sde",
        device=device
    )

Output save audio


      # Rearrange audio batch to a single sequence
      output = rearrange(output, "b d n -> d (b n)")

      # Peak normalize, clip, convert to int16, and save to file
      output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
      torchaudio.save("output.wav", output, sample_rate)

FAQs

这里有一些最常见的问题。

Stable Audio Open是一个开源的文本到音频模型，用于生成音频样本和音效。它允许用户从简单的文本提示生成最长47秒的高质量音频。

Stable Audio Open专注于生成短音频片段和音效，而商业版本可以创建最长三分钟的完整曲目和复杂作品。

可以，用户可以使用自己的音频数据对Stable Audio Open进行微调，以生成个性化的音效和音频样本。

你可以生成鼓节拍、乐器段落、环境声音、拟音录音和制作元素。

模型权重在Hugging Face上可用。

是的，它是完全免费和开源的。

该模型基于FreeSound和Free Music Archive的数据集进行训练。

可以，作为开源模型，它可以用于个人和商业用途。

该模型根据文本提示生成音频，因此支持用户提供的任何语言输入。

你可以从Hugging Face下载模型，并按照提供的教程和文档进行操作。

该模型可以在任何支持PyTorch并具有足够GPU或CPU资源的系统上运行。

有的，你可以加入Discord社区进行支持和讨论。

它是以开源许可发布的。

可以，你可以通过提供反馈、报告问题和在GitHub上提交拉取请求来做出贡献。

开发者可以访问文档、社区论坛，并通过Discord频道获得直接支持。

虽然它可以生成简短的音乐片段，但并未优化用于完整的歌曲、旋律或人声。

该模型基于多样化的数据集进行训练，并针对高质量的音频生成进行微调。

暂时官方还没发布具体的仓库，只发布了模型。

你可以使用其API将模型集成到你的应用程序中。

音频到音频生成修改现有音频，而文本到音频生成根据文本提示创建新的音频。

文本生成音效 Stable-Audio-Open

Free Online Stable-Audio-Open

什么是 stable audio open ?

Feature

开源优势

特殊训练

易于微调定制

与商业版不同

社区反馈

How to use Stable Audio Open?

Download model from huggingface

Install Dependencies

Import Required Libraries

Load model

Generate Audio

Output save audio

FAQs

什么是Stable Audio Open？

Stable Audio Open与商业版本有何不同？

我可以定制这个模型吗？

我可以用Stable Audio Open生成哪些类型的音频？

我可以在哪里下载这个模型？

Stable Audio Open是免费的吗？

该模型使用了哪些数据集进行训练？

我可以将Stable Audio Open用于商业用途吗？

Stable Audio Open支持多种语言吗？

如何开始使用Stable Audio Open？

运行Stable Audio Open的系统要求是什么？

是否有支持和讨论的社区？

Stable Audio Open发布的许可是什么？

我可以为这个项目做贡献吗？

为开发者提供了哪些支持？

该模型可以生成人声或旋律吗？

该模型如何确保生成音频的质量和多样性？

是否有使用Stable Audio Open的教程？

我如何将Stable Audio Open集成到我的应用程序中？

音频到音频生成和文本到音频生成有何区别？