モデル選定

軽量TTS

# 軽量TTS

Argos 4b 0.2 Es

Orpheus-3Bをベースに微調整されたテキスト音声変換モデルで、テキストを自然で流暢な音声に変換できます。

Safetensors スペイン語

Spark TTS 0.5B Bf16

Spark-TTS-0.5B-fp16 はMLXフォーマットのテキスト読み上げモデルで、英語と中国語をサポートしています。

音声合成複数言語対応

OuteTTSはトルコ語に特化したテキスト音声変換(TTS)モデルで、5億パラメータ規模を持ち、トルコ語テキストを自然な音声に変換できます。

音声合成その他

StyleTTS 2の軽量バージョンで、テキスト読み上げタスクに特化し、複雑さを低減するため複数のコンポーネントを削除しました。

音声合成英語

Orpheus 3b Kaya Q4 K M.gguf

Canopy Labsの事前学習モデルをファインチューニングしたテキスト読み上げモデル、量子化後は効率的な推論をサポート

音声合成複数言語対応

Canary Tts 0.5b

sarashina2.2‑0.5b‑instruct‑v0.1に基づいて訓練された日本語TTSモデルで、プロンプトによる音質制御をサポート

PyTorch 複数言語対応

Kokoroはテキスト読み上げ(TTS)モデルで、2種類の音素化をサポートするGGUFエンコードバージョンを提供します。

3b De Ft Research Release 4bit

これはMLXフォーマット変換に基づくドイツ語テキスト音声変換モデルで、ドイツ語言語処理タスクをサポートします。

Transformers ドイツ語

Orpheus Bangla Tts Gguf 8bit

このモデルはベンガル語をサポートするためにOrpheus 3B TTS（テキスト読み上げ）モデルを概念実証用にファインチューニングしたバージョンです。

音声合成その他

Orpheus Bangla Tts Gguf

Orpheus 3B TTSモデルのベンガル語向けファインチューニング版。955の音声サンプルでトレーニングされており、実験的なベンガル語音声合成に適しています

音声合成その他

CiSiMiはリソース制約環境向けに設計された初期のテキスト音声変換モデルプロトタイプで、CPU上で効率的に動作し、高度な音声合成を実現します。

音声合成英語

Kokoroは8200万パラメータのオープンソースTTSモデルで、音質はより大規模なモデルに匹敵しつつ、顕著な速度優位性とコスト効率を備えています。

音声合成英語

Kokoroは8200万パラメータのオープンソーステキスト音声合成モデルで、軽量アーキテクチャながら大規模モデルに匹敵する音質を実現し、生成速度を向上させ計算コストを削減します。

音声合成英語

Kokoro 82M Light

StyleTTS2-LJSpeechをベースにしたクローン版で、英語テキスト読み上げタスク向けに最適化され、一部の依存関係を削除して展開を簡素化しました。

音声合成英語

ctranslate2-4you

Indri 0.1 350m Tts

IndriはTransformerアーキテクチャに基づく新規・超小型・軽量なTTSモデルで、英語とヒンディー語のテキスト音声変換タスクをサポートします。

Transformers 複数言語対応

Japanese Parler Tts Large Bate

parler-tts-large-v1をベースに再学習した日本語テキスト音声変換モデルで、高品質な日本語音声を生成可能

Transformers 日本語

Parler Tts Mini V0.1

Parler-TTS Miniは軽量なテキスト読み上げモデルで、10.5K時間の音声データでトレーニングされ、テキストプロンプトによる音声特徴の制御をサポートします。

Transformers 英語

microsoft/speecht5_ttsをfleursデータセットでファインチューニングしたウルドゥー語音声合成モデル

Transformers その他

Pak-Speech-Processing

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase