音頻生成

2025年最佳 57 款音頻生成工具

Musicgen Medium

MusicGen是一款基於文本描述或音頻提示生成高質量音樂樣本的文本轉音樂模型，採用15億參數的自迴歸Transformer架構。

EnCodec是由Meta AI開發的高保真即時神經音頻編解碼器，採用端到端訓練方式，支持多種帶寬設置。

Meta AI開發的高保真即時神經音頻編解碼器，專為MusicGen項目訓練

Bigvgan V2 44khz 128band 512x

BigVGAN是一種基於大規模訓練的通用神經聲碼器，能夠高質量地生成音頻波形。

MusicGen是一款基於文本描述或音頻提示生成高質量音樂樣本的文本到音樂模型。

Stable Audio Open 1.0

Stable Audio Open 1.0 是一個文本到音頻生成模型，能夠根據文本提示生成最長47秒的44.1kHz立體聲音頻。

音頻生成英語

Bigvgan V2 24khz 100band 256x

BigVGAN是一種高性能神經聲碼器，通過大規模訓練實現高質量的音頻合成，支持多種採樣率和頻帶配置。

EnCodec是由Meta AI開發的即時高保真神經音頻編解碼器，支持多種帶寬配置和流式處理。

Musicgen Songstarter V0.2

基於musicgen-stereo-melody-large微調的文本轉音頻模型，專為音樂製作人設計，可生成32kHz立體聲音頻的歌曲創意

音頻生成英語

Musicgen Stereo Small

基於文本描述生成高質量立體聲音樂樣本的AI模型，支持300M參數規模

MusicGen Small 是一個基於 Transformer 架構的音樂生成模型，能夠根據文本描述生成高質量的音樂片段。

MusicGen是一款文本到音樂的生成模型，能夠根據文本描述或音頻提示生成高質量的音樂樣本。

Musicgen Melody

MusicGen是一個簡單可控的音樂生成模型，能夠根據文本描述或旋律輸入生成高質量音樂。

Musicgen Melody Large

MusicGen是一款由Meta AI開發的文本生成音樂模型，能夠根據文本描述或音頻提示生成高質量音樂樣本。

ACE-Step-v1-3.5B是一個文本轉音頻模型，支持高質量音頻生成，適用於音樂和聲音效果創作。

Stable Audio Open Small

基於文本提示生成最長11秒44.1kHz立體聲音頻的擴散模型

音頻生成英語

Stable Codec Speech 16k

基於Transformer架構的高質量低比特率語音編解碼模型，專為語音數據壓縮和生成建模設計

Safetensors 英語

Magnet Small 10secs

MAGNeT是一個文本到音樂和文本到聲音的模型，能夠根據文本描述生成高質量的音頻樣本。

ACE Step V1 Chinese Rap LoRA

一個混合說唱聲線模型，專注於提升中文說唱/嘻哈音樂的生成質量

音頻生成支持多種語言

在單塊GPU上24小時內訓練出的高質量語音語言模型，基於Qwen2.5-0.5B微調，使用Hubert標記作為詞彙表

Inspiremusic 1.5B Long

InspireMusic是一個專注於音樂生成、歌曲生成和音頻生成的統一工具包，支持高音質和長篇幅音樂生成。

音頻生成英語

TangoFlux是一個高效的文本轉音頻生成系統，結合流匹配與CLAP偏好優化技術，能夠快速生成高質量音頻。

Audio Magnet Medium

MAGNeT是一款基於非自迴歸Transformer的文本生成音樂與音效模型，能夠根據文本描述生成高質量音頻樣本。

Magnet Medium 30secs

MAGNeT是一個能夠根據文本描述生成高質量音頻樣本的文本到音樂和文本到聲音模型。

Musicgen Stereo Large

MusicGen是一款由Meta AI開發的文本生成音樂模型，支持立體聲生成，能夠根據文本描述或音頻提示生成高質量音樂樣本。

Magnet Medium 10secs

MAGNeT是一個文本轉音樂和文本轉聲音的模型，能夠根據文本描述生成高質量的音頻樣本。

Yue S2 1B General Exl2 8.0bpw

YuE是一個開創性的開源基礎模型系列，專為音樂生成設計，特別是將歌詞轉化為完整歌曲（lyrics2song）。

Musicgen Stereo Medium

Meta AI發佈的立體聲音樂生成模型，支持通過文本描述生成高質量音樂

Magnet Small 30secs

MAGNeT是一個文本到音樂和文本到聲音的模型，能夠根據文本描述生成高質量的音頻樣本。

Sentis MusicGen

基於Unity Sentis驗證的Meta MusicGen模型，可根據文本提示生成最長30秒的風格化音樂。

Audio Magnet Small

MAGNeT 是一款文本到音樂和文本到聲音的模型，能夠根據文本描述生成高質量的音頻樣本。它是一個基於掩碼生成非自迴歸Transformer的模型，使用32kHz EnCodec分詞器。

Perceiver Ar Sam Giant Midi

基於Perceiver AR架構的符號音頻模型，在GiantMIDI-Piano數據集上預訓練，用於符號音頻生成

Tango 2是基於Tango改進的文本生成音頻模型，通過DPO對齊訓練優化音頻生成質量

Transformers 英語

Yue S1 7B Anneal Jp Kr Icl

YuE是一系列開源基礎模型，專為音樂生成設計，特別是將歌詞轉化為完整歌曲（lyrics2song）。

TANGO是基於指令引導擴散的文本轉音頻模型，能夠根據文本提示生成包括人聲、動物聲音、自然與人工音效在內的逼真音頻。

Transformers 英語

這是一個基於離散Hubert標記的語音語言模型，專注於高效訓練，能夠生成語音片段的延續。

QAMDT是一種面向文本生成音樂的質量感知擴散模型，通過創新訓練技術提升音頻保真度和音樂表現力。

TunesFormer是一種基於Transformer的雙解碼器模型，專為生成符合用戶定義音樂形式的旋律而設計，特別適用於愛爾蘭傳統音樂。

基於生成式AI的MIDI音樂創作模型，支持從零生成或基於模板續寫樂曲

Musicgen Stereo Melody

MusicGen是一款由Meta AI開發的文本生成音樂模型，能夠根據文本描述或音頻提示生成高質量立體聲音樂樣本。

Music Large 800k

這是一個擁有7.8億參數的大型Transformer模型，專門用於音樂生成和轉錄任務，採用前瞻性訓練方法。

Tango 2是基於Tango改進的文本轉音頻生成模型，通過直接偏好優化(DPO)技術實現音頻生成的對齊訓練

Transformers 英語

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase