Musicgen Medium
MusicGenはテキスト説明またはオーディオプロンプトに基づいて高品質な音楽サンプルを生成するテキストから音楽へのモデルで、15億パラメータの自己回帰型Transformerアーキテクチャを採用しています。
音声生成
Transformers

M
facebook
1.5M
118
Encodec 24khz
EnCodecはMeta AIが開発した高音質リアルタイムニューラルオーディオコーデックで、エンドツーエンドトレーニング方式を採用し、複数のバンド幅設定をサポートしています。
音声生成
Transformers

E
facebook
534.08k
46
Encodec 32khz
Meta AIが開発した高忠実度リアルタイムニューラル音声コーデックで、MusicGenプロジェクト向けにトレーニング
音声生成
Transformers

E
facebook
348.00k
19
Bigvgan V2 44khz 128band 512x
MIT
BigVGANは大規模トレーニングに基づく汎用ニューラルボコーダーで、高品質なオーディオ波形を生成できます。
音声生成
B
nvidia
223.13k
41
Musicgen Small
MusicGenはテキスト記述またはオーディオプロンプトから高品質な音楽サンプルを生成するテキストtoミュージックモデルです。
音声生成
Transformers

M
facebook
123.91k
429
Stable Audio Open 1.0
その他
Stable Audio Open 1.0はテキストからオーディオを生成するモデルで、テキストプロンプトに基づいて最大47秒の44.1kHzステレオオーディオを生成できます。
音声生成 英語
S
stabilityai
36.03k
1,170
Bigvgan V2 24khz 100band 256x
MIT
BigVGANは高性能なニューラルボコーダーで、大規模トレーニングにより高品質なオーディオ合成を実現し、複数のサンプルレートとバンド構成をサポートします。
音声生成
B
nvidia
34.03k
14
Encodec 48khz
MIT
EnCodecはMeta AIが開発したリアルタイム高音質ニューラルオーディオコーデックで、複数の帯域幅設定とストリーミング処理をサポートしています。
音声生成
Transformers

E
facebook
23.25k
32
Musicgen Songstarter V0.2
musicgen-stereo-melody-largeをファインチューニングしたテキストからオーディオへの変換モデルで、音楽プロデューサー向けに設計されており、32kHzステレオオーディオの楽曲アイデアを生成可能
音声生成 英語
M
nateraw
22.11k
157
Musicgen Stereo Small
テキスト記述に基づいて高品質なステレオ音楽サンプルを生成するAIモデル、300Mパラメータ規模をサポート
音声生成
Transformers

M
facebook
7,091
29
Musicgen Small
MusicGen SmallはTransformerアーキテクチャに基づく音楽生成モデルで、テキスト記述から高品質な音楽フレーズを生成できます。
音声生成
Transformers

M
Xenova
5,434
24
Musicgen Large
MusicGenはテキストから音楽を生成するモデルで、テキストの説明やオーディオのヒントに基づいて高品質な音楽サンプルを生成できます。
音声生成
Transformers

M
facebook
5,125
448
Musicgen Melody
MusicGenはシンプルで制御可能な音楽生成モデルで、テキスト説明やメロディ入力に基づいて高品質な音楽を生成できます。
音声生成
Transformers

M
facebook
3,632
216
Musicgen Melody Large
MusicGenはMeta AIが開発したテキストから音楽を生成するモデルで、テキスト説明やオーディオプロンプトに基づいて高品質な音楽サンプルを生成できます。
音声生成
Transformers

M
facebook
1,414
29
Ace Gguf
Apache-2.0
ACE-Step-v1-3.5Bはテキストからオーディオへの変換モデルで、高品質なオーディオ生成をサポートし、音楽やサウンドエフェクトの作成に適しています。
音声生成
A
calcuis
1,332
12
Stable Audio Open Small
その他
テキストプロンプトに基づいて最大11秒の44.1kHzステレオオーディオを生成する拡散モデル
音声生成 英語
S
stabilityai
1,171
141
Stable Codec Speech 16k
その他
Transformerアーキテクチャに基づく高品質低ビットレート音声コーデックモデル、音声データ圧縮と生成モデリング専用に設計
音声生成
Safetensors 英語
S
stabilityai
1,072
17
Magnet Small 10secs
MAGNeTはテキストから音楽や音声を生成するモデルで、テキストの説明に基づいて高品質なオーディオサンプルを生成できます。
音声生成
M
facebook
976
22
ACE Step V1 Chinese Rap LoRA
Apache-2.0
混合ラップボーカルモデルで、中国語ラップ/ヒップホップ音楽の生成品質向上に特化
音声生成 複数言語対応
A
ACE-Step
896
15
Slam Scaled
MIT
単一GPUで24時間以内にトレーニングされた高品質な音声言語モデル、Qwen2.5-0.5Bを微調整、Hubertトークンを語彙として使用
音声生成
Transformers

S
slprl
792
6
Inspiremusic 1.5B Long
Apache-2.0
InspireMusicは、高音質かつ長時間の音楽生成をサポートする、音楽生成、楽曲生成、音声生成に特化した統合ツールキットです。
音声生成 英語
I
FunAudioLLM
760
28
Tangoflux
TangoFluxは効率的なテキスト音声変換生成システムで、フローマッチングとCLAP選好最適化技術を組み合わせ、高品質な音声を迅速に生成できます。
音声生成
T
declare-lab
727
94
Audio Magnet Medium
MAGNeTは非自己回帰Transformerベースのテキストから音楽と音響効果を生成するモデルで、テキスト記述に基づいて高品質な音声サンプルを生成できます。
音声生成
A
facebook
435
34
Magnet Medium 30secs
MAGNeTはテキスト記述から高品質なオーディオサンプルを生成できるテキストtoミュージックおよびテキストtoサウンドモデルです。
音声生成
M
facebook
409
36
Musicgen Stereo Large
MusicGenはMeta AIが開発したテキストから音楽を生成するモデルで、ステレオ生成をサポートし、テキスト説明やオーディオプロンプトに基づいて高品質な音楽サンプルを生成できます。
音声生成
Transformers

M
facebook
382
74
Magnet Medium 10secs
MAGNeTはテキストから音楽や音声を生成するモデルで、テキスト記述に基づいて高品質なオーディオサンプルを生成できます。
音声生成
M
facebook
322
8
Yue S2 1B General Exl2 8.0bpw
Apache-2.0
YuEは、音楽生成のために設計された画期的なオープンソース基礎モデルシリーズで、特に歌詞から完全な楽曲への変換(lyrics2song)を目的としています。
音声生成
Y
Alissonerdx
310
1
Musicgen Stereo Medium
Meta AIがリリースしたステレオ音楽生成モデルで、テキスト記述による高品質な音楽生成をサポート
音声生成
Transformers

M
facebook
303
30
Magnet Small 30secs
MAGNeTはテキストから音楽や音声を生成するモデルで、テキスト記述に基づいて高品質なオーディオサンプルを生成できます。
音声生成
M
facebook
215
8
Sentis MusicGen
MIT
Unity Sentisで検証済みのMeta MusicGenモデルで、テキストプロンプトに基づいて最大30秒のスタイリッシュな音楽を生成できます。
音声生成
S
unity
174
17
Audio Magnet Small
MAGNeTは、テキスト記述に基づいて高品質な音声サンプルを生成できるテキストto音楽およびテキストtoサウンドのモデルです。32kHz EnCodecトークナイザーを使用したマスク生成非自己回帰型Transformerモデルです。
音声生成
A
facebook
161
9
Perceiver Ar Sam Giant Midi
Apache-2.0
Perceiver ARアーキテクチャに基づくシンボリックオーディオモデルで、GiantMIDI-Pianoデータセットで事前学習され、シンボリックオーディオ生成に使用されます
音声生成
Transformers

P
krasserm
153
11
Tango2
Tango 2はTangoを改良したテキストからオーディオを生成するモデルで、DPOアライメントトレーニングによりオーディオ生成品質を最適化
音声生成
Transformers 英語

T
declare-lab
147
17
Yue S1 7B Anneal Jp Kr Icl
Apache-2.0
YuEは、特に歌詞から楽曲への変換(lyrics2song)のために設計された一連のオープンソース基礎モデルです。
音声生成
Safetensors
Y
m-a-p
136
11
Tango
TANGOは命令誘導拡散に基づくテキストから音声へのモデルで、テキストプロンプトに基づいて人間の声、動物の鳴き声、自然および人工音響を含むリアルな音声を生成できます。
音声生成
Transformers 英語

T
declare-lab
118
41
Slam
MIT
これは離散Hubertトークンに基づく音声言語モデルで、効率的なトレーニングに焦点を当て、音声セグメントの継続を生成できます。
音声生成
Transformers

S
slprl
115
10
Openmusic
QAMDTは、テキストから音楽生成に向けた品質認識拡散モデルで、革新的な訓練技術によりオーディオの忠実度と音楽表現力を向上させます。
音声生成
O
jadechoghari
108
63
Tunesformer
MIT
TunesFormerは、ユーザー定義の音楽形式に適合するメロディを生成するために設計された、Transformerベースのデュアルデコーダーモデルで、特にアイルランド伝統音楽に適しています。
音声生成
Transformers

T
sander-wood
90
6
Musiclang 4k
Gpl-3.0
生成AIベースのMIDI音楽創作モデル、ゼロからの生成またはテンプレートに基づく楽曲の続き書きをサポート
音声生成
Transformers

M
musiclang
83
17
Musicgen Stereo Melody
MusicGenはMeta AIが開発したテキストから音楽を生成するモデルで、テキスト説明またはオーディオプロンプトに基づいて高品質なステレオ音楽サンプルを生成できます。
音声生成
Transformers

M
facebook
82
10
Music Large 800k
Apache-2.0
これは7.8億パラメータを持つ大規模なTransformerモデルで、音楽生成とトランスクリプションタスクに特化しており、アンティシペーショントレーニング手法を採用しています。
音声生成
Transformers

M
stanford-crfm
73
27
Tango2 Full
Tango 2はTangoを改良したテキストから音声生成モデルで、直接選好最適化(DPO)技術を用いて音声生成のアライメントトレーニングを実現
音声生成
Transformers 英語

T
declare-lab
63
9
- 1
- 2