Pi0 Pre Train 100
Apache-2.0
LeRobotフレームワークを基に訓練されたロボット戦略モデルで、ロボット制御タスクに適用可能
マルチモーダル融合
Safetensors
P
Ziang-Li
136
0
Pi0fast Base
Apache-2.0
π0+FASTはロボット技術向けの効率的な動作トークン化スキームで、Physical Intelligenceによって設計され、視覚-言語-動作タスクに適しています。
マルチモーダル融合
P
lerobot
1,372
12
STEVE R1 7B SFT I1 GGUF
Apache-2.0
これはFanbin/STEVE-R1-7B-SFTモデルを重み/行列量子化したバージョンで、リソースが限られた環境に適しています。
テキスト生成画像 英語
S
mradermacher
394
0
Magma 8B
MIT
MagmaはマルチモーダルAIエージェントの基盤モデルで、画像とテキスト入力を処理しテキスト出力を生成可能。仮想と現実環境における複雑なインタラクション能力を備えています。
画像生成テキスト
Transformers

M
microsoft
4,526
363
Pi0
Apache-2.0
Pi0は汎用ロボット制御のための視覚-言語-動作フローモデルで、ロボット制御タスクをサポートします。
マルチモーダル融合
P
lerobot
11.84k
230
Minivla History2 Vq Libero90 Prismatic
MIT
MiniVLAは、より小型ながら優れた性能を持つ視覚言語動作モデルで、Prismatic VLMsトレーニングスクリプトと互換性があり、ロボット技術やマルチモーダルタスクに適しています。
画像生成テキスト
Transformers 英語

M
Stanford-ILIAD
22
1
Crossformer
MIT
CrossFormerは、操作、ナビゲーション、移動、航空に適用可能な統一戦略モデルで、クロスエンボディド学習におけるスケーラブルな応用を目的としています。
マルチモーダル融合
C
rail-berkeley
48
7
Vqbet Pusht
Apache-2.0
VQ-BeTはPushT環境向けに訓練された動作生成モデルで、潜在動作原理に基づいて設計されています
画像生成
Transformers

V
lerobot
68
4
Openvla 7b
MIT
OpenVLA 7BはOpen X-Embodimentデータセットでトレーニングされたオープンソースの視覚-言語-動作モデルで、言語命令とカメラ画像に基づいてロボットの動作を生成できます。
画像生成テキスト
Transformers 英語

O
openvla
1.7M
108
Hpt Base
HPTは異なるエンティティを共有潜在空間にアライメントするトランスフォーマーモデルで、戦略学習における拡張行動の研究に焦点を当てています。
マルチモーダルアライメント
Transformers

H
liruiw
70
10
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98