Jat
JATはマルチモーダルでマルチタスクな強化学習モデルであり、Atariゲーム、BabyAI、MetaWorld、MuJoCoなど様々な環境で優れた性能を発揮します。
ダウンロード数 71
リリース時間 : 1/16/2024
モデル概要
JATは汎用的な強化学習モデルで、ゲーム、ロボット制御、ナビゲーションなど様々なタスクや環境に対応できます。
モデル特徴
マルチタスク学習
複数の異なる強化学習タスクや環境で同時に優れた性能を発揮できる
汎用性の高さ
ゲームからロボット制御まで、様々な強化学習シナリオに適用可能
高性能
複数のベンチマークで専門家レベルに近い、または同等の性能を達成
モデル能力
Atariゲーム制御
BabyAIタスク解決
MetaWorldロボット操作
MuJoCo物理シミュレーション制御
使用事例
ゲームAI
Atariゲームプレイヤー
様々なAtariクラシックゲームを自動でプレイ
IQM人間標準化総報酬が0.38を達成
ロボット制御
MuJoCoアント制御
MuJoCoシミュレーション環境内のアントロボットを制御
IQM専門家標準化総報酬が0.85を達成
ナビゲーションタスク
BabyAIタスク解決
BabyAI環境内の様々なナビゲーションやオブジェクト操作タスクを解決
IQM専門家標準化総報酬が0.99を達成
## 🚀 jat-project/jat
このプロジェクトは強化学習分野におけるモデルで、Atari、BabyAI、MetaWorld、MuJoCoなどの様々なデータセットに対応しており、強化学習タスクでの性能を評価しています。
## 📚 ドキュメント
### モデル情報
| 属性 | 詳情 |
|------|------|
| モデルタイプ | 強化学習モデル |
| 訓練データ | jat-project/jat-dataset |
### 評価結果
#### Atari 57
| 指標 | 値 |
|------|------|
| IQM expert normalized total reward | 0.14 [0.14, 0.15] |
| IQM human normalized total reward | 0.38 [0.37, 0.39] |
#### BabyAI
| 指標 | 値 |
|------|------|
| IQM expert normalized total reward | 0.99 [0.99, 0.99] |
#### MetaWorld
| 指標 | 値 |
|------|------|
| IQM expert normalized total reward | 0.65 [0.64, 0.67] |
#### MuJoCo
| 指標 | 値 |
|------|------|
| IQM expert normalized total reward | 0.85 [0.83, 0.86] |
#### Alien (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 1518.70 +/- 568.14 |
| Expert normalized total reward | 0.08 +/- 0.03 |
| Human normalized total reward | 0.19 +/- 0.08 |
#### Amidar (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 89.17 +/- 78.73 |
| Expert normalized total reward | 0.04 +/- 0.04 |
| Human normalized total reward | 0.05 +/- 0.05 |
#### Assault (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 1676.91 +/- 780.73 |
| Expert normalized total reward | 0.09 +/- 0.05 |
| Human normalized total reward | 2.80 +/- 1.50 |
#### Asterix (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 844.50 +/- 546.85 |
| Expert normalized total reward | 0.18 +/- 0.16 |
| Human normalized total reward | 0.08 +/- 0.07 |
#### Asteroids (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 1357.90 +/- 453.01 |
| Expert normalized total reward | 0.00 +/- 0.00 |
| Human normalized total reward | 0.01 +/- 0.01 |
#### Atlantis (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 51843.00 +/- 123857.07 |
| Expert normalized total reward | 0.13 +/- 0.40 |
| Human normalized total reward | 2.41 +/- 7.66 |
#### Bank Heist (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 977.80 +/- 156.49 |
| Expert normalized total reward | 0.74 +/- 0.12 |
| Human normalized total reward | 1.30 +/- 0.21 |
#### Battle Zone (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 16780.00 +/- 6926.15 |
| Expert normalized total reward | 0.06 +/- 0.02 |
| Human normalized total reward | 0.45 +/- 0.19 |
#### Beam Rider (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 768.36 +/- 364.06 |
| Expert normalized total reward | 0.01 +/- 0.01 |
| Human normalized total reward | 0.02 +/- 0.02 |
#### Berzerk (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 616.20 +/- 296.08 |
| Expert normalized total reward | 0.01 +/- 0.01 |
| Human normalized total reward | 0.20 +/- 0.12 |
#### Bowling (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 22.32 +/- 5.18 |
| Expert normalized total reward | 1.00 +/- 0.00 |
| Human normalized total reward | -0.01 +/- 0.04 |
#### Boxing (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 92.31 +/- 18.24 |
| Expert normalized total reward | 0.94 +/- 0.19 |
| Human normalized total reward | 7.68 +/- 1.52 |
#### Breakout (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 7.93 +/- 5.66 |
| Expert normalized total reward | 0.01 +/- 0.01 |
| Human normalized total reward | 0.22 +/- 0.20 |
#### Centipede (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 5888.27 +/- 2594.62 |
| Expert normalized total reward | 0.40 +/- 0.27 |
| Human normalized total reward | 0.38 +/- 0.26 |
#### Chopper Command (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 2371.00 +/- 1195.43 |
| Expert normalized total reward | 0.02 +/- 0.01 |
| Human normalized total reward | 0.24 +/- 0.18 |
#### Crazy Climber (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 97145.00 +/- 30388.04 |
| Expert normalized total reward | 0.51 +/- 0.18 |
| Human normalized total reward | 3.45 +/- 1.21 |
#### Defender (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 39317.50 +/- 16246.15 |
| Expert normalized total reward | 0.10 +/- 0.05 |
| Human normalized total reward | 2.30 +/- 1.03 |
#### Demon Attack (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 795.10 +/- 982.55 |
| Expert normalized total reward | 0.01 +/- 0.01 |
| Human normalized total reward | 0.35 +/- 0.54 |
#### Double Dunk (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 13.40 +/- 11.07 |
| Expert normalized total reward | 0.81 +/- 0.28 |
| Human normalized total reward | 0.91 +/- 0.32 |
#### Enduro (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 103.11 +/- 28.05 |
| Expert normalized total reward | 0.04 +/- 0.01 |
| Human normalized total reward | 0.12 +/- 0.03 |
#### Fishing Derby (Atari)
| 指標 | 値 |
|------|------|
| Total reward | -31.67 +/- 22.54 |
| Expert normalized total reward | 0.61 +/- 0.23 |
| Human normalized total reward | 0.46 +/- 0.17 |
#### Freeway (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 27.57 +/- 1.87 |
| Expert normalized total reward | 0.81 +/- 0.06 |
| Human normalized total reward | 0.93 +/- 0.06 |
#### Frostbite (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 2875.60 +/- 1679.84 |
| Expert normalized total reward | 0.21 +/- 0.13 |
| Human normalized total reward | 0.66 +/- 0.39 |
#### Gopher (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 5508.80 +/- 2802.03 |
| Expert normalized total reward | 0.06 +/- 0.03 |
| Human normalized total reward | 2.44 +/- 1.30 |
#### Gravitar (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 1330.50 +/- 918.23 |
| Expert normalized total reward | 0.30 +/- 0.24 |
| Human normalized total reward | 0.36 +/- 0.29 |
#### H.E.R.O. (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 11932.00 +/- 3036.87 |
| Expert normalized total reward | 0.25 +/- 0.07 |
| Human normalized total reward | 0.37 +/- 0.10 |
#### Ice Hockey (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 7.61 +/- 5.28 |
| Expert normalized total reward | 0.52 +/- 0.15 |
| Human normalized total reward | 1.55 +/- 0.44 |
#### James Bond (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 425.00 +/- 632.51 |
| Expert normalized total reward | 0.01 +/- 0.02 |
| Human normalized total reward | 1.45 +/- 2.31 |
#### Kangaroo (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 375.00 +/- 314.13 |
| Expert normalized total reward | 0.62 +/- 0.60 |
| Human normalized total reward | 0.11 +/- 0.11 |
#### Krull (Atari)
| 指標 | 値 |
|------|------|
| Total reward | 10743.30 +/- 1311.26 |
|... |... |
以上のREADMEは、指定された情報を元に、日本語で整形し、必要な情報を整理して表示しています。元の文書にインストール手順や使用例などの情報がなかったため、それらのセクションは生成されていません。
Codebert Base
CodeBERTはプログラミング言語と自然言語向けの事前学習モデルで、RoBERTaアーキテクチャに基づいており、コード検索やコードからドキュメント生成などの機能をサポートします。
マルチモーダル融合
C
microsoft
1.6M
248
Llama 4 Scout 17B 16E Instruct
その他
Llama 4 ScoutはMetaが開発したマルチモーダルAIモデルで、混合専門家アーキテクチャを採用し、12言語のテキストと画像インタラクションをサポート、17Bの活性化パラメータと109Bの総パラメータを有します。
マルチモーダル融合
Transformers 複数言語対応

L
meta-llama
817.62k
844
Unixcoder Base
Apache-2.0
UniXcoderは統一されたマルチモーダル事前学習モデルで、コードコメントや抽象構文木などのマルチモーダルデータを使用してコード表現を事前学習します。
マルチモーダル融合
Transformers 英語

U
microsoft
347.45k
51
TITAN
TITANは、病理学画像分析のための視覚的自己教師あり学習と視覚-言語アライメントによるマルチモーダル全スライド基礎モデルです。
マルチモーダル融合
Safetensors 英語
T
MahmoodLab
213.39k
37
Qwen2.5 Omni 7B
その他
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティを認識し、ストリーミング方式でテキストや自然な音声レスポンスを生成できます。
マルチモーダル融合
Transformers 英語

Q
Qwen
206.20k
1,522
Minicpm O 2 6
MiniCPM-o 2.6はスマートフォンで動作するGPT-4oレベルのマルチモーダル大規模モデルで、視覚、音声、ライブストリーム処理をサポート
マルチモーダル融合
Transformers その他

M
openbmb
178.38k
1,117
Llama 4 Scout 17B 16E Instruct
その他
Llama 4 ScoutはMetaが開発した17Bパラメータ/16エキスパート混合のマルチモーダルAIモデルで、12言語と画像理解をサポートし、業界をリードする性能を有しています。
マルチモーダル融合
Transformers 複数言語対応

L
chutesai
173.52k
2
Qwen2.5 Omni 3B
その他
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティ情報を認識し、ストリーミング方式でテキストと自然な音声応答を同期生成できます。
マルチモーダル融合
Transformers 英語

Q
Qwen
48.07k
219
One Align
MIT
Q-Alignはマルチタスク視覚評価モデルで、画像品質評価(IQA)、美的評価(IAA)、動画品質評価(VQA)に特化しており、ICML2024で発表されました。
マルチモーダル融合
Transformers

O
q-future
39.48k
25
Biomedvlp BioViL T
MIT
BioViL-Tは胸部X線画像と放射線レポートの分析に特化した視覚言語モデルで、時系列マルチモーダル事前学習により性能を向上させています。
マルチモーダル融合
Transformers 英語

B
microsoft
26.39k
35
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98