# 強化学習トレーニング

Mimo 7B RL 0530
MIT
MiMoは、推論タスク用に最初からトレーニングされた一連の7Bパラメータモデルで、事前学習と事後学習の戦略を最適化することで、数学とコードの推論タスクで優れた性能を発揮します。
大規模言語モデル Transformers
M
XiaomiMiMo
319
17
Thinkless 1.5B RL DeepScaleR
Apache-2.0
Thinklessは強化学習でトレーニングされた大規模言語モデルで、簡潔な回答または長鎖推論モードを適応的に選択でき、推論計算コストを大幅に削減します。
大規模言語モデル Transformers
T
Vinnnf
197
1
Seed Coder 8B Reasoning Bf16
MIT
Seed-Coderは8B規模のオープンソースコードモデルファミリーで、基本版、指導版、推論版を含みます。推論版は強化学習トレーニングにより推論能力を向上させ、64Kのコンテキスト長をサポートします。
大規模言語モデル Transformers
S
ByteDance-Seed
4,382
9
AM Thinking V1
Apache-2.0
推論能力を強化した320億パラメータの密言語モデルで、Qwen 2.5‑32B‑Baseを基に構築されており、推論ベンチマークではより大規模なMoEモデルに匹敵する性能を発揮します。
大規模言語モデル Transformers
A
a-m-team
1,377
153
Mimo 7B SFT
MIT
MiMo-7B-RLはMiMo-7B-SFTモデルを基に強化学習でトレーニングされたモデルで、数学とコード推論タスクにおいてOpenAI o1-miniと肩を並べる性能を発揮します。
大規模言語モデル Transformers
M
XiaomiMiMo
1,183
23
VL Reasoner 7B
Apache-2.0
VL-Reasoner-7B は GRPO-SSR 技術に基づいてトレーニングされたマルチモーダル推論モデルで、複数のマルチモーダル推論ベンチマークテストで優れたパフォーマンスを発揮します。
テキスト生成画像 Transformers 英語
V
TIGER-Lab
126
1
Timezero ActivityNet 7B
TimeZeroは推論誘導型の大規模視覚言語モデル(LVLM)で、時間的ビデオ位置特定(TVG)タスク向けに設計されており、強化学習手法を通じて動的なビデオ-言語関係分析を実現します。
ビデオ生成テキスト Transformers
T
wwwyyy
142
1
Timezero Charades 7B
TimeZeroは推論誘導型の大規模視覚言語モデル(LVLM)で、時間的ビデオ位置特定(TVG)タスク向けに設計されており、強化学習手法を用いてビデオ内の自然言語クエリに対応する時間的セグメントを識別します。
ビデオ生成テキスト Transformers
T
wwwyyy
183
0
Openchat V2
その他
OpenChat v2シリーズはLLaMA-13Bフレームワークを基にした言語モデルで、条件付き加重損失トレーニングを採用し、複数のベンチマークテストでChatGPTの性能を上回っています。
大規模言語モデル Transformers 英語
O
openchat
1,090
13
Promptist
Promptistは強化学習ベースの自動プロンプト最適化ツールで、Stable Diffusion向けに設計されており、ユーザー入力をモデルが好むプロンプトに変換します。
テキスト生成 Transformers
P
microsoft
478
66
Dqn SpaceInvadersNoFrameskip V4
これはDQNアルゴリズムに基づく強化学習エージェントで、SpaceInvadersNoFrameskip-v4ゲームをプレイするために特別に設計され、stable-baselines3ライブラリでトレーニングされています。
動画処理
D
0xrushi
13
0
Dqn Mountaincar V0 Zoo
これは深層Qネットワーク(DQN)に基づく強化学習エージェントで、MountainCar-v0環境のタスク解決に特化しています。
物理学モデル
D
Galeros
16
0
Dqn Mountaincar V0
これは深層Qネットワーク(DQN)に基づく強化学習エージェントで、MountainCar-v0環境の制御問題解決のために特別に訓練されています。
物理学モデル
D
Galeros
18
0
Dqn SpaceInvadersNoFrameskip V4
これはStable Baselines3ライブラリでトレーニングされたDQNエージェントで、SpaceInvadersNoFrameskip-v4ゲームをプレイするために特別に設計されています。
動画処理
D
ThomasSimonini
32
1
Dqn BeamRiderNoFrameskip V4
これはDQNアルゴリズムに基づく強化学習モデルで、アタリゲームBeamRiderNoFrameskip-v4環境専用に設計されています。
動画処理
D
sb3
169
0
Dqn BreakoutNoFrameskip V4
これはDQNアルゴリズムに基づく深層強化学習モデルで、AtariゲームBreakoutNoFrameskip-v4環境専用に設計されています。
動画処理
D
sb3
20
2
Dqn SpaceInvadersNoFrameskip V4
これは深層Qネットワーク(DQN)に基づく強化学習エージェントで、アタリゲーム『スペースインベーダー』専用にトレーニングされています
動画処理
D
sb3
58
4
Dqn Acrobot V1
これはstable-baselines3ライブラリでトレーニングされたDQN強化学習エージェントで、Acrobot-v1制御問題を解決するために特別に設計されています。
物理学モデル
D
sb3
403
0
Dqn PongNoFrameskip V4
これはDQNアルゴリズムに基づく強化学習モデルで、PongNoFrameskip-v4環境でのゲームプレイ専用に設計されています。
動画処理
D
sb3
16
1
Ppo BipedalWalker V3
これはstable-baselines3ライブラリでトレーニングされたPPOエージェントモデルで、BipedalWalker-v3環境における強化学習タスク専用です。
タンパク質モデル
P
sb3
22
0
PPO LunarLander V2
これはPPOアルゴリズムに基づく強化学習モデルで、LunarLander-v2環境向けに訓練され、月面着陸機を安全に着陸させることができます。
物理学モデル
P
BioGeek
102
0
Dqn LunarLander V2
これはstable-baselines3ライブラリでトレーニングされたDQNエージェントで、LunarLander-v2環境における強化学習タスクを解決するためのものです。
D
araffin
54
2
Ppo Pendulum V1
これはPPOアルゴリズムに基づく強化学習モデルで、Pendulum-v1環境における制御問題を解決するために特別に設計されています。
物理学モデル
P
sb3
51
2
Ppo PongNoFrameskip V4
これはstable-baselines3ライブラリでトレーニングされたPPOエージェントで、アタリゲームPongNoFrameskip-v4をプレイするために特別に設計されています。
動画処理
P
ThomasSimonini
148
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase