モデル選定

高品質音声合成

# 高品質音声合成

Orpheus 3b Kaya Q8 0.gguf

Canopy Labsの事前学習モデルをファインチューニングした8ビット量子化テキスト音声変換モデル、英語24kHz音声生成をサポート

音声合成複数言語対応

Orpheus TTS Turkish PT 2000 GGUF

Orpheus-TTS-Turkish-PT-2000 はトルコ語ベースのテキスト読み上げ（TTS）モデルで、高品質な音声合成をサポートします。

音声合成その他

IndicF5は人間レベルの多言語テキスト読み上げ（TTS）モデルで、11のインド言語をサポートし、1417時間の高品質音声データでトレーニングされています。

音声合成その他

Parler Tts Mini Multilingual

Parler-TTS Mini 多言語版はParler-TTS Miniの多言語拡張バージョンで、8つのヨーロッパ言語のテキスト音声変換をサポートしています

Transformers 複数言語対応

Speecht5 Finetuned Emirhan Tr

Microsoft SpeechT5をファインチューニングしたトルコ語テキスト音声変換モデルで、高品質なトルコ語音声を生成できます。

TensorBoard その他

Parler Tts Mini V0.1

Parler-TTS Miniは軽量なテキスト読み上げモデルで、10.5K時間の音声データでトレーニングされ、テキストプロンプトによる音声特徴の制御をサポートします。

Transformers 英語

これはVITSアーキテクチャに基づくロシア語テキスト音声変換モデルで、ロシア語テキストを自然な音声に変換できます。

Transformers その他

Fairseq S²ベースのFastSpeech 2テキスト音声合成モデルで、英語単一話者女性音声の合成をサポートします。

音声合成英語

Fastspeech2 Conformer With Hifigan

FastSpeech2ConformerとHiFi-GANを統合したテキスト音声合成モデルで、効率的で高品質な音声合成を提供

Transformers 英語

Nvidia Tts En Hifitts Hifigan Ft Fastpitch

HiFiGANはGANベースのボコーダーモデルで、メルスペクトログラムから高品質な音声を生成でき、マルチスピーカーの英語音声合成をサポートします。

音声合成英語

Mastering-Python-HF

これはESPnet2フレームワークでトレーニングされた日本語テキスト読み上げ(TTS)モデルで、VITSアーキテクチャを使用し、mioによってamadeusデータセットでトレーニングされました。

音声合成日本語

HiFiGANは生成敵対ネットワーク(GAN)モデルで、メルスペクトログラムから高品質な音声を生成でき、テキスト読み上げシステムに適しています。

音声合成英語

Kss Tts Train Jets Raw Phn Null G2pk Train.total Count.ave

これはESPnet2フレームワークで訓練された韓国語テキスト音声変換(TTS)モデルで、KSSデータセットを使用し、JETSアーキテクチャを採用しています。

音声合成韓国語

Gunnarthor Talromur A Fastspeech2

ESPnetフレームワークとtalromurデータセットでトレーニングされたFastSpeech2テキスト音声合成モデルで、アイスランド語の音声合成をサポートします。

音声合成英語

LJ SpeechデータセットでトレーニングされたHiFi-GANボコーダーモデル、高品質な音声合成用

Transformers 英語

Kan Bayashi Ljspeech Vits

ESPnetフレームワークに基づいて訓練されたVITSテキスト音声変換モデルで、LJSpeechデータセットを使用して訓練され、英語の音声合成をサポートします。

音声合成英語

Kan Bayashi Ljspeech Fastspeech2

これはESPnetフレームワークでトレーニングされたFastSpeech2テキスト音声合成(TTS)モデルで、LJSpeechデータセットを使用してトレーニングされました。

音声合成英語

Kan Bayashi Libritts Xvector Vits

ESPnetフレームワークでトレーニングされたテキスト読み上げモデルで、LibriTTSデータセットを使用して英語音声合成をサポートします。

音声合成英語

Kan Bayashi Jvs Tts Finetune Jvs001 Jsut Vits Raw Phn Jaconv Pyopenjta Truncated 178804

これはESPnetフレームワークを基に訓練された日本語のテキストを音声に変換する(TTS)モデルで、jvsデータセットを使用して微調整され、高品質の日本語音声合成をサポートします。

音声合成日本語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase