2025年最高の 610 個の音声合成ツール

Kokoro 82M
Apache-2.0
Kokoroは8200万のパラメータを持つオープンソースのテキスト読み上げ(TTS)モデルで、軽量なアーキテクチャと高音質で知られ、高速かつコスト効率が高いという特徴があります。
音声合成 英語
K
hexgrad
2.0M
4,155
XTTS V2
その他
ⓍTTSは革新的な音声生成モデルで、わずか6秒の音声サンプルでクロスランゲージ音声クローンを実現し、17言語をサポートします。
音声合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTSはストリームマッチングに基づく音声合成モデルで、流暢かつ忠実な音声合成に特化しており、特に童話の朗読などのシナリオに適しています。
音声合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGANは大規模トレーニングに基づく汎用ニューラルボコーダーで、メルスペクトログラムから高品質なオーディオ波形を生成できます。
音声合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
LibriTTSデータセットでファインチューニングされたSpeechT5音声合成(テキスト読み上げ)モデルで、高品質なテキスト読み上げ変換をサポートします。
音声合成 Transformers
S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
DiaはNari Labsが開発した16億パラメータのテキスト音声合成モデルで、テキストから高度にリアルな対話を直接生成でき、感情やイントネーションの制御をサポートし、非言語コミュニケーション内容も生成可能です。
音声合成 Safetensors 英語
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSMはSesameが開発した10億パラメータ規模の音声生成モデルで、テキストと音声入力からRVQ音声エンコーディングを生成可能
音声合成 Safetensors 英語
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoroはオープンウェイトの小型ながら強力なテキスト読み上げ(TTS)モデルシリーズで、専門データセットから100名の中国語話者データを追加しました。
音声合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS は Parler-TTS Mini の多言語インド語拡張版で、21言語をサポートし、複数のインド言語と英語を含みます。
音声合成 Transformers 複数言語対応
I
ai4bharat
43.59k
124
Bark
MIT
BarkはSunoによって作成されたTransformerベースのテキストからオーディオへのモデルで、非常にリアルな多言語音声、音楽、背景ノイズ、シンプルな音響効果を生成できます。
音声合成 Transformers 複数言語対応
B
suno
35.72k
1,326
E2 TTS
F5-TTSは完全非自己回帰のゼロショットテキスト音声合成モデルで、高品質な音声合成をサポートします。
音声合成
E
SWivid
32.58k
48
Xcodec2
XCodec2は多言語音声の意味理解と高品質音声再構築をサポートする音声トークナイザーです
音声合成
X
HKUSTAudio
32.36k
67
Parler Tts Large V1
Apache-2.0
22億パラメータを持つテキスト音声変換モデル、4.5万時間の音声データで訓練され、テキストプロンプトによる音声特徴の制御をサポート
音声合成 Transformers 英語
P
parler-tts
28.69k
252
Mms Tts Eng
Metaが開発した英語テキスト音声合成モデル、VITSアーキテクチャに基づき、高品質な音声合成をサポート
音声合成 Transformers
M
facebook
28.60k
146
Bark Small
MIT
BarkはSunoが開発したTransformerベースの多言語テキストから音声へのモデルで、リアルな音声、音楽、非言語音を生成可能
音声合成 Transformers 複数言語対応
B
suno
22.74k
201
Mms Tts Yor
Meta社が開発したヨルバ語をサポートするテキスト音声変換モデルで、VITSアーキテクチャに基づき高品質な音声合成を実現
音声合成 Transformers
M
facebook
17.88k
19
Parler Tts Mini V1
Apache-2.0
軽量テキスト音声合成モデル、4.5万時間の音声データで訓練、テキストプロンプトによる音声特徴制御をサポート
音声合成 Transformers 英語
P
parler-tts
14.16k
143
Orpheus 3b 0.1 Ft Q4 K M GGUF
Apache-2.0
Orpheus-TTSはローカルで動作可能な軽量なテキスト読み上げモデルで、高品質な音声合成機能を提供します。
音声合成 英語
O
isaiahbjork
13.43k
48
Bruce
これはRVC(Retrieval-based Voice Conversion)モデルで、音声から音声への変換タスクに使用され、入力音声を特定のスタイルの出力音声に変換できます。
音声合成 Transformers
B
sail-rvc
11.79k
0
Homersimpson2333333
これはRVC(Retrieval-Based Voice Conversion)技術に基づく音声変換モデルで、入力音声をホーマー・シンプソンスタイルの声に変換できます。
音声合成 Transformers
H
sail-rvc
11.36k
1
Freddie Mercury RVC 700 Epochs
これはRVC(Retrieval-based Voice Conversion)技術に基づく音声変換モデルで、700エポックの学習を経ており、入力音声をフレディ・マーキュリースタイルの音声に変換できます。
音声合成 Transformers
F
sail-rvc
8,750
1
Lana Del Rey E1000 S13000
これはRVC(Retrieval-based Voice Conversion)技術に基づく音声変換モデルで、入力音声を特定のスタイルの音声に変換できます。
音声合成 Transformers
L
sail-rvc
8,707
1
Adele RVC 400 Epochs
これはRVC(Retrieval-based Voice Conversion)技術に基づく音声変換モデルで、400回のトレーニングを経ており、入力音声をアデルの音色を模倣した出力音声に変換できます。
音声合成 Transformers
A
sail-rvc
8,267
0
Xxxtentacion
これはRVCアーキテクチャに基づくオーディオ変換モデルで、XXXTentacionスタイルの音声変換に特化しています。
音声合成 Transformers
X
sail-rvc
7,984
0
Xphonebert Base
MIT
XPhoneBERTはテキスト音声変換(TTS)向けの音素表現事前学習多言語モデルとして初めて開発され、BERT-baseアーキテクチャを基盤とし、約100言語の3億3千万の音素レベル文で訓練されています。
音声合成 Transformers
X
vinai
7,561
15
Indicf5
IndicF5は1417時間の高品質音声データでトレーニングされた、人間に近い多言語テキスト読み上げ(TTS)モデルで、11のインド言語をサポートしています。
音声合成 その他
I
ai4bharat
6,595
37
Michaeljackson
これはRVC(Retrieval-based Voice Conversion)技術に基づく音声変換モデルで、入力音声をマイケル・ジャクソンスタイルの音声に変換できます。
音声合成 Transformers
M
sail-rvc
6,250
0
Shrek
これはRVC(Retrieval-based Voice Conversion)技術に基づいた音声変換モデルで、ソース音声をターゲット音声スタイルに変換できます。
音声合成 Transformers
S
sail-rvc
5,919
2
Eminem E600 S5400
これはRVC(Retrieval-Based Voice Conversion)技術に基づく音声変換モデルで、入力音声を特定のスタイルの音声出力に変換できます。
音声合成 Transformers
E
sail-rvc
5,639
1
XTTS V1
その他
ⓍTTSは音声生成モデルで、わずか6秒の音声サンプルで声をクローンし、異なる言語に適用できます。
音声合成
X
coqui
5,449
369
Parler Tts Mini V0.1
Apache-2.0
Parler-TTS Miniは軽量なテキスト読み上げモデルで、10.5K時間の音声データでトレーニングされ、テキストプロンプトによる音声特徴の制御をサポートします。
音声合成 Transformers 英語
P
parler-tts
5,430
352
Ariana Grande RVC V1
これはRVC(Retrieval-Based Voice Conversion)技術に基づく音声変換モデルで、入力音声をアリアナ・グランデスタイルの音声に変換できます。
音声合成 Transformers
A
sail-rvc
5,404
2
F15
フィッシュスピーチ V1.5は、100万時間以上の多言語音声データでトレーニングされた最先端のテキスト読み上げ(TTS)モデルです。
音声合成 複数言語対応
F
cocktailpeanut
5,162
0
Csm 1b
Apache-2.0
CSMはSesameが開発した1Bパラメータの音声生成モデルで、テキストと音声入力からRVQ音声エンコードを生成でき、コンテキストを考慮した音声生成をサポートします。
音声合成 英語
C
eustlb
5,144
3
Drake RVC
Drake_RVC は RVC (Retrieval-based Voice Conversion) 技術に基づく音声変換モデルで、音声変換タスクに特化しています。
音声合成 Transformers
D
sail-rvc
5,043
1
Tts Hifigan
HiFiGANは生成敵対ネットワーク(GAN)モデルで、メルスペクトログラムから高品質な音声を生成でき、テキスト読み上げシステムに適しています。
音声合成 英語
T
nvidia
5,022
36
Alvin
これはRVC(Retrieval-based Voice Conversion)モデルで、音声から音声への変換タスクに使用されます。
音声合成 Transformers
A
sail-rvc
4,909
0
Billie Eilish
これはRVC(Retrieval-based Voice Conversion)技術に基づく音声変換モデルで、入力音声をビリー・アイリッシュの声に似せた出力音声に変換できます。
音声合成 Transformers
B
sail-rvc
4,899
2
Tts En Fastpitch
FastPitchは完全並列のTransformerアーキテクチャを採用したテキスト音声変換モデルで、ピッチや音素の持続時間を制御し、高品質なアメリカ英語音声を生成できます。
音声合成 英語
T
nvidia
4,701
38
Mms Tts Fra
Meta社が開発したフランス語テキスト音声合成モデル、VITSアーキテクチャに基づき、高品質な音声合成をサポート
音声合成 Transformers
M
facebook
4,667
8
Justinbiebermw
これはRVC(Retrieval-Based Voice Conversion)技術に基づくオーディオ変換モデルで、入力オーディオをジャスティン・ビーバー(Justin Bieber)スタイルの音声に変換するために特別に設計されています。
音声合成 Transformers
J
sail-rvc
4,656
0
Frank Sinatra 51600 Steps 250 Epochs RVC
これはRVCフレームワークに基づく音声変換モデルで、音声変換タスク専用に設計されています。
音声合成 Transformers
F
sail-rvc
4,590
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase