Qwen2.5 Omni 7B AWQ
その他
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、動画を含む複数のモダリティを認識し、ストリーミング方式でテキストと自然な音声応答を生成できます。
マルチモーダル融合
Transformers 英語

Q
Qwen
77
8
Spark TTS 0.5B 8bit
これはMLXフォーマットに基づくテキスト音声変換モデルで、英語と中国語をサポートし、prince-canuma/Spark-TTS-0.5Bから変換されました。
音声合成 複数言語対応
S
mlx-community
56
1
Spark TTS 0.5B 4 6bit
Spark-TTS-0.5B-4-6bit はMLXフォーマットに基づくテキスト音声合成モデルで、英語と中国語をサポートしています。
音声合成 複数言語対応
S
mlx-community
59
0
Spark TTS 0.5B Bf16
Spark-TTS-0.5B-fp16 はMLXフォーマットのテキスト読み上げモデルで、英語と中国語をサポートしています。
音声合成 複数言語対応
S
mlx-community
121
0
Muyan TTS SFT Q8 0 GGUF
このモデルはMYZY-AI/Muyan-TTS-SFTから変換されたGGUF形式のテキスト音声変換モデルで、中国語音声合成をサポートしています。
音声合成
M
NikolayKozloff
20
1
Dia 1.6B
Apache-2.0
DiaはNari Labsが開発した16億パラメータのテキスト音声合成モデルで、テキストから高度にリアルな対話を直接生成でき、感情やイントネーションの制御をサポートし、非言語コミュニケーション内容も生成可能です。
音声合成
Safetensors 英語
D
nari-labs
80.28k
1,380
Kokorotts
Apache-2.0
Kokoroは8200万のパラメータを持つオープンソースのテキスト音声変換モデルで、軽量なアーキテクチャで大型モデルに匹敵する音質を提供し、同時に速度とコスト効率を大幅に向上させます。
音声合成 英語
K
Daemontatox
78
0
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoroはオープンウェイトの小型ながら強力なテキスト読み上げ(TTS)モデルシリーズで、専門データセットから100名の中国語話者データを追加しました。
音声合成
K
hexgrad
51.56k
112
Kokoro 82M Light
Apache-2.0
StyleTTS2-LJSpeechをベースにしたクローン版で、英語テキスト読み上げタスク向けに最適化され、一部の依存関係を削除して展開を簡素化しました。
音声合成 英語
K
ctranslate2-4you
21
8
Llasa 1B Q8 0 GGUF
このモデルはHKUST-Audio/Llasa-1Bから変換されたGGUF形式のモデルで、主にテキストから音声への変換タスクに使用されます。
音声合成 複数言語対応
L
NikolayKozloff
16
3
Outetts 0.3 1B GGUF
OuteTTS-0.3-1BはOuteAIが開発した多言語テキスト読み上げモデルで、英語、中国語、日本語、韓国語、フランス語、ドイツ語をサポートしています。
音声合成 複数言語対応
O
gaianet
34
0
Outetts 0.3 1B GGUF
OuteTTS-0.3-1B は多言語対応のテキスト読み上げモデルで、OuteAI によって開発され、Second State Inc. によって量子化処理が行われました。
音声合成 複数言語対応
O
second-state
151
1
Outetts 0.3 500M GGUF
OuteTTS-0.3-500M は多言語テキスト読み上げモデルで、英語、中国語、日本語、韓国語、フランス語、ドイツ語をサポートしています。
音声合成 複数言語対応
O
second-state
49
1
Outetts 0.2 500M GGUF
OuteTTS-0.2-500M は OuteAI が開発した多言語テキスト読み上げモデルで、英語、中国語、日本語、韓国語をサポートしています。
音声合成 複数言語対応
O
gaianet
44
0
Outetts 0.2 500M GGUF
OuteTTS-0.2-500M は多言語テキスト読み上げモデルで、英語、中国語、日本語、韓国語をサポートしています。
音声合成 複数言語対応
O
second-state
693
0
Fish Speech 1.5 Base
MIT
Fish Speech 1.5 は多言語テキスト読み上げモデルで、複数の言語をサポートし、アクセストークンなしで利用可能です。
音声合成 複数言語対応
F
None1145
111
4
Indri 0.1 350m Tts
IndriはTransformerアーキテクチャに基づく新規・超小型・軽量なTTSモデルで、英語とヒンディー語のテキスト音声変換タスクをサポートします。
音声合成
Transformers 複数言語対応

I
11mlabs
1,088
0
Hindi Text To Speech Tts
MIT
microsoft/speecht5_ttsをファインチューニングしたヒンディー語テキスト音声変換モデル
音声合成
Transformers

H
ShigrafS
23
0
XTTS V2 Argentinian Spanish
その他
ⓍTTSは音声生成モデルで、わずか6秒の音声サンプルで声をクローンし、異なる言語に適用できます。何時間もの大量のトレーニングデータは必要ありません。
音声合成 スペイン語
X
marianbasti
44
5
Mms Tts Nova Train
CC
これはシャン語(Shan)のテキストを音声に変換する(TTS)モデルで、シャン語のテキストを自然な音声に変換します。
音声合成
Transformers その他

M
NorHsangPha
28
0
Chattts
ChatTTSはテキストを音声に変換する(TTS)モデルで、入力されたテキストを自然で流暢な音声に変換できます。
音声合成
C
2Noise
2,799
1,551
Speecht5 Tts Commonvoice Ca
MIT
SpeechT5アーキテクチャに基づくカタルーニャ語テキスト音声変換モデル、Common Voice 11.0データセットでファインチューニング
音声合成
Transformers その他

S
wetdog
22
0
Tts Hifigan
HiFiGANは生成敵対ネットワーク(GAN)モデルで、メルスペクトログラムから高品質な音声を生成でき、テキスト読み上げシステムに適しています。
音声合成 英語
T
nvidia
5,022
36
Hifigan Lj V1
LJ SpeechデータセットでトレーニングされたHiFi-GANボコーダーモデル、高品質な音声合成用
音声合成
Transformers 英語

H
jaketae
32
0
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98