モデル選定

リアルタイム音声生成

# リアルタイム音声生成

Qwen2.5 Omni 7B AWQ

Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、動画を含む複数のモダリティを認識し、ストリーミング方式でテキストと自然な音声応答を生成できます。

マルチモーダル融合

Transformers 英語

Spark TTS 0.5B 8bit

これはMLXフォーマットに基づくテキスト音声変換モデルで、英語と中国語をサポートし、prince-canuma/Spark-TTS-0.5Bから変換されました。

音声合成複数言語対応

Spark TTS 0.5B 4 6bit

Spark-TTS-0.5B-4-6bit はMLXフォーマットに基づくテキスト音声合成モデルで、英語と中国語をサポートしています。

音声合成複数言語対応

Spark TTS 0.5B Bf16

Spark-TTS-0.5B-fp16 はMLXフォーマットのテキスト読み上げモデルで、英語と中国語をサポートしています。

音声合成複数言語対応

Muyan TTS SFT Q8 0 GGUF

このモデルはMYZY-AI/Muyan-TTS-SFTから変換されたGGUF形式のテキスト音声変換モデルで、中国語音声合成をサポートしています。

DiaはNari Labsが開発した16億パラメータのテキスト音声合成モデルで、テキストから高度にリアルな対話を直接生成でき、感情やイントネーションの制御をサポートし、非言語コミュニケーション内容も生成可能です。

Safetensors 英語

Kokoroは8200万のパラメータを持つオープンソースのテキスト音声変換モデルで、軽量なアーキテクチャで大型モデルに匹敵する音質を提供し、同時に速度とコスト効率を大幅に向上させます。

音声合成英語

Kokoro 82M V1.1 Zh

Kokoroはオープンウェイトの小型ながら強力なテキスト読み上げ（TTS）モデルシリーズで、専門データセットから100名の中国語話者データを追加しました。

Kokoro 82M Light

StyleTTS2-LJSpeechをベースにしたクローン版で、英語テキスト読み上げタスク向けに最適化され、一部の依存関係を削除して展開を簡素化しました。

音声合成英語

ctranslate2-4you

Llasa 1B Q8 0 GGUF

このモデルはHKUST-Audio/Llasa-1Bから変換されたGGUF形式のモデルで、主にテキストから音声への変換タスクに使用されます。

音声合成複数言語対応

Outetts 0.3 1B GGUF

OuteTTS-0.3-1BはOuteAIが開発した多言語テキスト読み上げモデルで、英語、中国語、日本語、韓国語、フランス語、ドイツ語をサポートしています。

音声合成複数言語対応

Outetts 0.3 1B GGUF

OuteTTS-0.3-1B は多言語対応のテキスト読み上げモデルで、OuteAI によって開発され、Second State Inc. によって量子化処理が行われました。

音声合成複数言語対応

Outetts 0.3 500M GGUF

OuteTTS-0.3-500M は多言語テキスト読み上げモデルで、英語、中国語、日本語、韓国語、フランス語、ドイツ語をサポートしています。

音声合成複数言語対応

Outetts 0.2 500M GGUF

OuteTTS-0.2-500M は OuteAI が開発した多言語テキスト読み上げモデルで、英語、中国語、日本語、韓国語をサポートしています。

音声合成複数言語対応

Outetts 0.2 500M GGUF

OuteTTS-0.2-500M は多言語テキスト読み上げモデルで、英語、中国語、日本語、韓国語をサポートしています。

音声合成複数言語対応

Fish Speech 1.5 Base

Fish Speech 1.5 は多言語テキスト読み上げモデルで、複数の言語をサポートし、アクセストークンなしで利用可能です。

音声合成複数言語対応

Indri 0.1 350m Tts

IndriはTransformerアーキテクチャに基づく新規・超小型・軽量なTTSモデルで、英語とヒンディー語のテキスト音声変換タスクをサポートします。

Transformers 複数言語対応

Hindi Text To Speech Tts

microsoft/speecht5_ttsをファインチューニングしたヒンディー語テキスト音声変換モデル

XTTS V2 Argentinian Spanish

ⓍTTSは音声生成モデルで、わずか6秒の音声サンプルで声をクローンし、異なる言語に適用できます。何時間もの大量のトレーニングデータは必要ありません。

音声合成スペイン語

Mms Tts Nova Train

これはシャン語（Shan）のテキストを音声に変換する（TTS）モデルで、シャン語のテキストを自然な音声に変換します。

Transformers その他

ChatTTSはテキストを音声に変換する(TTS)モデルで、入力されたテキストを自然で流暢な音声に変換できます。

Speecht5 Tts Commonvoice Ca

SpeechT5アーキテクチャに基づくカタルーニャ語テキスト音声変換モデル、Common Voice 11.0データセットでファインチューニング

Transformers その他

HiFiGANは生成敵対ネットワーク(GAN)モデルで、メルスペクトログラムから高品質な音声を生成でき、テキスト読み上げシステムに適しています。

音声合成英語

LJ SpeechデータセットでトレーニングされたHiFi-GANボコーダーモデル、高品質な音声合成用

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase