すべてのカテゴリ

音声合成

2025年最高の 610 個の音声合成ツール

Kokoroは8200万のパラメータを持つオープンソースのテキスト読み上げ（TTS）モデルで、軽量なアーキテクチャと高音質で知られ、高速かつコスト効率が高いという特徴があります。

音声合成英語

ⓍTTSは革新的な音声生成モデルで、わずか6秒の音声サンプルでクロスランゲージ音声クローンを実現し、17言語をサポートします。

F5-TTSはストリームマッチングに基づく音声合成モデルで、流暢かつ忠実な音声合成に特化しており、特に童話の朗読などのシナリオに適しています。

Bigvgan V2 22khz 80band 256x

BigVGANは大規模トレーニングに基づく汎用ニューラルボコーダーで、メルスペクトログラムから高品質なオーディオ波形を生成できます。

LibriTTSデータセットでファインチューニングされたSpeechT5音声合成(テキスト読み上げ)モデルで、高品質なテキスト読み上げ変換をサポートします。

DiaはNari Labsが開発した16億パラメータのテキスト音声合成モデルで、テキストから高度にリアルな対話を直接生成でき、感情やイントネーションの制御をサポートし、非言語コミュニケーション内容も生成可能です。

Safetensors 英語

CSMはSesameが開発した10億パラメータ規模の音声生成モデルで、テキストと音声入力からRVQ音声エンコーディングを生成可能

Safetensors 英語

Kokoro 82M V1.1 Zh

Kokoroはオープンウェイトの小型ながら強力なテキスト読み上げ（TTS）モデルシリーズで、専門データセットから100名の中国語話者データを追加しました。

Indic Parler Tts

Indic Parler-TTS は Parler-TTS Mini の多言語インド語拡張版で、21言語をサポートし、複数のインド言語と英語を含みます。

Transformers 複数言語対応

BarkはSunoによって作成されたTransformerベースのテキストからオーディオへのモデルで、非常にリアルな多言語音声、音楽、背景ノイズ、シンプルな音響効果を生成できます。

Transformers 複数言語対応

F5-TTSは完全非自己回帰のゼロショットテキスト音声合成モデルで、高品質な音声合成をサポートします。

XCodec2は多言語音声の意味理解と高品質音声再構築をサポートする音声トークナイザーです

Parler Tts Large V1

22億パラメータを持つテキスト音声変換モデル、4.5万時間の音声データで訓練され、テキストプロンプトによる音声特徴の制御をサポート

Transformers 英語

Metaが開発した英語テキスト音声合成モデル、VITSアーキテクチャに基づき、高品質な音声合成をサポート

BarkはSunoが開発したTransformerベースの多言語テキストから音声へのモデルで、リアルな音声、音楽、非言語音を生成可能

Transformers 複数言語対応

Meta社が開発したヨルバ語をサポートするテキスト音声変換モデルで、VITSアーキテクチャに基づき高品質な音声合成を実現

Parler Tts Mini V1

軽量テキスト音声合成モデル、4.5万時間の音声データで訓練、テキストプロンプトによる音声特徴制御をサポート

Transformers 英語

Orpheus 3b 0.1 Ft Q4 K M GGUF

Orpheus-TTSはローカルで動作可能な軽量なテキスト読み上げモデルで、高品質な音声合成機能を提供します。

音声合成英語

これはRVC（Retrieval-based Voice Conversion）モデルで、音声から音声への変換タスクに使用され、入力音声を特定のスタイルの出力音声に変換できます。

Homersimpson2333333

これはRVC（Retrieval-Based Voice Conversion）技術に基づく音声変換モデルで、入力音声をホーマー・シンプソンスタイルの声に変換できます。

Freddie Mercury RVC 700 Epochs

これはRVC（Retrieval-based Voice Conversion）技術に基づく音声変換モデルで、700エポックの学習を経ており、入力音声をフレディ・マーキュリースタイルの音声に変換できます。

Lana Del Rey E1000 S13000

これはRVC（Retrieval-based Voice Conversion）技術に基づく音声変換モデルで、入力音声を特定のスタイルの音声に変換できます。

Adele RVC 400 Epochs

これはRVC（Retrieval-based Voice Conversion）技術に基づく音声変換モデルで、400回のトレーニングを経ており、入力音声をアデルの音色を模倣した出力音声に変換できます。

これはRVCアーキテクチャに基づくオーディオ変換モデルで、XXXTentacionスタイルの音声変換に特化しています。

Xphonebert Base

XPhoneBERTはテキスト音声変換(TTS)向けの音素表現事前学習多言語モデルとして初めて開発され、BERT-baseアーキテクチャを基盤とし、約100言語の3億3千万の音素レベル文で訓練されています。

IndicF5は1417時間の高品質音声データでトレーニングされた、人間に近い多言語テキスト読み上げ(TTS)モデルで、11のインド言語をサポートしています。

音声合成その他

これはRVC(Retrieval-based Voice Conversion)技術に基づく音声変換モデルで、入力音声をマイケル・ジャクソンスタイルの音声に変換できます。

これはRVC（Retrieval-based Voice Conversion）技術に基づいた音声変換モデルで、ソース音声をターゲット音声スタイルに変換できます。

Eminem E600 S5400

これはRVC（Retrieval-Based Voice Conversion）技術に基づく音声変換モデルで、入力音声を特定のスタイルの音声出力に変換できます。

ⓍTTSは音声生成モデルで、わずか6秒の音声サンプルで声をクローンし、異なる言語に適用できます。

Parler Tts Mini V0.1

Parler-TTS Miniは軽量なテキスト読み上げモデルで、10.5K時間の音声データでトレーニングされ、テキストプロンプトによる音声特徴の制御をサポートします。

Transformers 英語

Ariana Grande RVC V1

これはRVC（Retrieval-Based Voice Conversion）技術に基づく音声変換モデルで、入力音声をアリアナ・グランデスタイルの音声に変換できます。

フィッシュスピーチ V1.5は、100万時間以上の多言語音声データでトレーニングされた最先端のテキスト読み上げ（TTS）モデルです。

音声合成複数言語対応

CSMはSesameが開発した1Bパラメータの音声生成モデルで、テキストと音声入力からRVQ音声エンコードを生成でき、コンテキストを考慮した音声生成をサポートします。

音声合成英語

Drake_RVC は RVC (Retrieval-based Voice Conversion) 技術に基づく音声変換モデルで、音声変換タスクに特化しています。

HiFiGANは生成敵対ネットワーク(GAN)モデルで、メルスペクトログラムから高品質な音声を生成でき、テキスト読み上げシステムに適しています。

音声合成英語

これはRVC（Retrieval-based Voice Conversion）モデルで、音声から音声への変換タスクに使用されます。

これはRVC(Retrieval-based Voice Conversion)技術に基づく音声変換モデルで、入力音声をビリー・アイリッシュの声に似せた出力音声に変換できます。

Tts En Fastpitch

FastPitchは完全並列のTransformerアーキテクチャを採用したテキスト音声変換モデルで、ピッチや音素の持続時間を制御し、高品質なアメリカ英語音声を生成できます。

音声合成英語

Meta社が開発したフランス語テキスト音声合成モデル、VITSアーキテクチャに基づき、高品質な音声合成をサポート

これはRVC（Retrieval-Based Voice Conversion）技術に基づくオーディオ変換モデルで、入力オーディオをジャスティン・ビーバー（Justin Bieber）スタイルの音声に変換するために特別に設計されています。

Frank Sinatra 51600 Steps 250 Epochs RVC

これはRVCフレームワークに基づく音声変換モデルで、音声変換タスク専用に設計されています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase