モデル選定

視覚言語動作モデル

# 視覚言語動作モデル

Jarvisvla Qwen2 VL 7B

『マインクラフト』専用に設計された視覚-言語-動作モデルで、人間の言語コマンドに基づいてゲーム内の数千のスキルを実行可能

画像生成テキスト

Transformers 英語

Spatialvla 4b 224 Sft Fractal

SpatialVLAは視覚-言語-動作モデルで、fractalデータセットでファインチューニングされ、主にロボット制御タスクに使用されます。

テキスト生成画像

Transformers 英語

Spatialvla 4b 224 Sft Bridge

このモデルは、bridgeデータセットで微調整された視覚-言語-動作モデルで、Simpler-envベンチマークテスト専用に設計されています。

テキスト生成画像

Transformers 英語

Openvla 7b Oft Finetuned Libero Goal

OpenVLA-OFTは最適化された視覚 - 言語 - 動作モデルで、微調整技術により基礎となるOpenVLAモデルの性能と速度を大幅に向上させています。

マルチモーダル融合

CogACTは、視覚言語モデル(VLM)に基づいて派生した新しい高度な視覚言語動作(VLA)アーキテクチャで、ロボット操作向けに設計されています。

マルチモーダル融合

Transformers 英語

CogACTは視覚言語モデル(VLM)に基づく新しい高度な視覚言語動作(VLA)アーキテクチャで、ロボット操作のために設計されています。

マルチモーダル融合

Transformers 英語

CogACTは、ロボット操作タスクのための視覚言語モデルと専用動作モジュールを組み合わせた新しい視覚言語動作(VLA)アーキテクチャです。

マルチモーダル融合

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase