# 高忠実度オーディオ

Llasa 3B
LlasaはLLaMAベースのテキスト読み上げ(TTS)システムで、音声トークンを統合することで言語モデルの能力を拡張し、中国語と英語の音声生成をサポートします。
音声合成 複数言語対応
L
unsloth
55
1
Handler
MIT
BarkはSunoによって作成されたTransformerベースのテキストからオーディオへのモデルで、非常にリアルな多言語音声、音楽、背景ノイズ、音響効果を生成できます。
音声合成 複数言語対応
H
walterheart
20
0
F5 TTS German
F5-TTSはフローマッチング技術に基づくドイツ語音声合成モデルで、流暢で忠実な音声出力の生成に特化しています。
音声合成 複数言語対応
F
marduk-ra
577
26
MP SENet DNS
MIT
Pytorchに基づくオーディオノイズ除去と音声強化モデルで、オーディオのノイズを効果的に除去し、音声の明瞭度を向上させます。
オーディオ拡張 Safetensors
M
JacobLinCool
723
1
Openmusic
QAMDTは、テキストから音楽生成に向けた品質認識拡散モデルで、革新的な訓練技術によりオーディオの忠実度と音楽表現力を向上させます。
音声生成
O
jadechoghari
108
63
Musicgen Melody Large
MusicGenはMeta AIが開発したテキストから音楽を生成するモデルで、テキスト説明やオーディオプロンプトに基づいて高品質な音楽サンプルを生成できます。
音声生成 Transformers
M
facebook
1,414
29
Sepformer Dns4 16k Enhancement
Apache-2.0
これはSepFormerアーキテクチャに基づく音声エンハンスメントモデルで、ノイズ除去タスクに特化しており、マイクロソフトDNS - 4データセットで訓練され、16kHzサンプリング周波数のオーディオ処理をサポートします。
オーディオ拡張 複数言語対応
S
speechbrain
1,669
20
Bark Small
BarkはSunoによって作成されたTransformerベースのテキストからオーディオへのモデルで、非常にリアルな多言語音声、音楽、背景ノイズ、簡単な音響効果を生成できます。
音声合成 Transformers 複数言語対応
B
ylacombe
1,947
2
Musicgen Medium
MusicGenはテキスト説明またはオーディオプロンプトに基づいて高品質な音楽サンプルを生成するテキストから音楽へのモデルで、15億パラメータの自己回帰型Transformerアーキテクチャを採用しています。
音声生成 Transformers
M
facebook
1.5M
118
Bark
MIT
BarkはSunoによって作成されたTransformerベースのテキストからオーディオへのモデルで、非常にリアルな多言語音声、音楽、背景ノイズ、シンプルな音響効果を生成できます。
音声合成 Transformers 複数言語対応
B
suno
35.72k
1,326
Tts Transformer Zh Cv7 Css10
fairseq S^2に基づくTransformerテキスト音声変換モデルで、簡体字中国語をサポートし、一人の女性音声で、Common Voice v7とCSS10データセットで訓練されました。
音声合成 中国語
T
facebook
15
85
Kan Bayashi Ljspeech Joint Finetune Conformer Fastspeech2 Hifigan
これはESPnet2に基づくテキスト音声変換(TTS)モデルで、LJSpeechデータセットを使用して訓練され、Conformer、FastSpeech2、HiFi - GANアーキテクチャを組み合わせています。
音声合成 英語
K
espnet
20
16
Convtasnet Libri2Mix Sepclean 16k
これはAsteroidフレームワークを基に訓練されたConvTasNetモデルで、オーディオ分離タスクに特化しており、Libri2Mixデータセットのsep_cleanタスクで訓練されています。
音声分離
C
JorisCos
13.38k
2
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase