モデル選定

拡散Transformer

# 拡散Transformer

MegaTTS 3は、スパースアライメント強化型の潜在拡散Transformerに基づくゼロショット音声合成モデルで、中国語と英語の音声合成をサポートしています。

Safetensors 複数言語対応

テンセントが提供する先進的な3D合成システムで、画像やテキストから高解像度のテクスチャ付き3Dアセットを生成可能

3Dビジョン複数言語対応

RDT-170Mは1.7億パラメータを持つ模倣学習拡散Transformerモデルで、ロボットの視覚-言語-動作タスクに使用されます。

マルチモーダル融合

Transformers 英語

robotics-diffusion-transformer

OminiControl は拡散Transformerベースの汎用制御モデルで、画像から画像へのタスクに特化しています。

100万以上のマルチロボット操作データで事前学習された10億パラメータの模倣学習拡散Transformerモデルで、マルチビュー視覚言語動作予測をサポート

マルチモーダル融合

Transformers 英語

robotics-diffusion-transformer

Pixart LCM XL 2 1024 MS

PixArt-LCMは拡散Transformerに基づくテキストから画像への生成モデルで、Pixart-αとLCMの利点を組み合わせ、テキストプロンプトに基づいて高速に高品質な画像を生成できます。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase