モデル選定

マルチモーダル拡散モデル

# マルチモーダル拡散モデル

Cosmos 1.0 Diffusion 7B Text2World

NVIDIAが開発した拡散アーキテクチャに基づくマルチモーダル世界ファウンデーションモデルで、テキスト入力に基づいて高品質な物理知覚ビデオを生成可能

テキスト生成ビデオ

CogACTは、視覚言語モデル(VLM)に基づいて派生した新しい高度な視覚言語動作(VLA)アーキテクチャで、ロボット操作向けに設計されています。

マルチモーダル融合

Transformers 英語

CogACTは視覚言語モデル(VLM)に基づく新しい高度な視覚言語動作(VLA)アーキテクチャで、ロボット操作のために設計されています。

マルチモーダル融合

Transformers 英語

robotics-diffusion-transformer/rdt-1bから派生したRDTモデルで、ロボット技術分野に特化しています。

テキスト生成画像

Transformers 英語

Gligen Inpainting Text Image

GLIGENは拡散ベースのグラウンディングテキストから画像生成モデルで、テキストプロンプト、バウンディングボックス、参照画像に基づいてリアルな画像を生成できます。

テキスト生成画像

LDM3Dはテキストプロンプトから画像と深度マップデータを生成できる潜在拡散モデルで、3Dコンテンツ制作をサポート

テキスト生成画像英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase