Megatts3
Apache-2.0
MegaTTS 3は、スパースアライメント強化型の潜在拡散Transformerに基づくゼロショット音声合成モデルで、中国語と英語の音声合成をサポートしています。
音声合成
Safetensors 複数言語対応
M
RedbeardNZ
26
0
Hunyuan3d 2
その他
テンセントが提供する先進的な3D合成システムで、画像やテキストから高解像度のテクスチャ付き3Dアセットを生成可能
3Dビジョン 複数言語対応
H
tencent
490.00k
1,314
Rdt 170m
MIT
RDT-170Mは1.7億パラメータを持つ模倣学習拡散Transformerモデルで、ロボットの視覚-言語-動作タスクに使用されます。
マルチモーダル融合
Transformers 英語

R
robotics-diffusion-transformer
278
7
Ominicontrol
OminiControl は拡散Transformerベースの汎用制御モデルで、画像から画像へのタスクに特化しています。
画像生成
O
Yuanshi
6,390
139
Rdt 1b
MIT
100万以上のマルチロボット操作データで事前学習された10億パラメータの模倣学習拡散Transformerモデルで、マルチビュー視覚言語動作予測をサポート
マルチモーダル融合
Transformers 英語

R
robotics-diffusion-transformer
2,644
80
Pixart LCM XL 2 1024 MS
PixArt-LCMは拡散Transformerに基づくテキストから画像への生成モデルで、Pixart-αとLCMの利点を組み合わせ、テキストプロンプトに基づいて高速に高品質な画像を生成できます。
画像生成
P
PixArt-alpha
625
60
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98