モデル選定

リアルタイム音声合成

# リアルタイム音声合成

Spark TTS 0.5B GGUF

Spark-TTS-0.5B は prince-canuma/Spark-TTS-0.5B を基にした量子化バージョンで、英語と中国語のテキスト読み上げタスクをサポートします。

音声合成複数言語対応

Llamaアーキテクチャに基づく最先端の音声大規模モデルで、高品質で共感性のあるテキストから音声への生成に特化

Transformers 英語

Orpheus 3b 0.1 Ft 16bit

アルパカモデルを基盤とした最先端の音声大規模言語モデルで、高品質で共感性のあるテキストから音声への生成に特化

Transformers 複数言語対応

Orpheus-3b FTの4ビットAWQ量子化バージョンで、テキストから音声への変換タスクに最適化されており、音声クローン機能をサポートしています。

音声合成英語

YaTharThShaRma999

Llama OuteTTS 1.0 1B Bf16

これはMLX形式のテキスト音声変換モデルで、複数の言語をサポートし、音声合成タスクに適しています。

音声合成複数言語対応

Llama OuteTTS 1.0 1B 3bit

これはMLX形式の3ビット量子化テキスト読み上げモデルで、複数の言語をサポートしています。

音声合成複数言語対応

Dia-1.6B-6bit は Dia-1.6B を基にした 6 ビット量子化バージョンで、MLX フレームワーク向けに最適化されたテキスト読み上げモデルです。

音声合成英語

Kokoroは8200万パラメータのオープンソースTTSモデルで、音質はより大規模なモデルに匹敵しつつ、顕著な速度優位性とコスト効率を備えています。

音声合成英語

Zonos V0.1 Transformer

Zonos-v0.1 は、20万時間以上の多言語音声データでトレーニングされた最先端のオープンソース重み付けテキスト音声合成モデルで、表現力と品質においてトップクラスのTTSサービスプロバイダーに匹敵、あるいは凌駕する性能を発揮します。

XTTS V2 Urdu FT

ウルドゥー語のテキスト読み上げと音声クローンをサポートするTTSモデル

Indri 0.1 124m Tts

IndriはTransformerアーキテクチャに基づく超小型軽量級TTSモデルで、英語とヒンディー語のテキスト読み上げタスクをサポートします。

Transformers 複数言語対応

Tts En Fastpitch

FastPitchは完全並列のTransformerアーキテクチャを採用したテキスト音声変換モデルで、ピッチや音素の持続時間を制御し、高品質なアメリカ英語音声を生成できます。

音声合成英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase