強化學習訓練

# 強化學習訓練

OpenChat v2系列是基於LLaMA-13B框架的語言模型，採用條件加權損失訓練，在多個基準測試中超越ChatGPT表現。

大型語言模型

Transformers 英語

Mimo 7B RL 0530

MiMo是一系列專為推理任務從頭訓練的7B參數模型，通過優化預訓練和後訓練策略，在數學和代碼推理任務上表現出色。

大型語言模型

Qwenlong L1 32B GGUF

QwenLong-L1-32B 是專為長上下文推理設計的大語言模型，通過強化學習訓練，在多個長上下文問答基準測試中表現出色，能有效處理複雜的推理任務。

大型語言模型

Thinkless 1.5B RL DeepScaleR

Thinkless是一個通過強化學習訓練的大語言模型，能夠自適應選擇簡答或長鏈推理模式，顯著降低推理計算成本。

大型語言模型

Seed Coder 8B Reasoning Bf16

Seed-Coder是一個8B規模的開源代碼模型家族，包含基礎版、指導版和推理版。推理版通過強化學習訓練提升推理能力，支持64K上下文長度。

大型語言模型

專注於增強推理能力的320億參數稠密語言模型，基於Qwen 2.5‑32B‑Base構建，在推理基準測試中展現出與更大規模MoE模型相媲美的性能。

大型語言模型

MiMo-7B-RL是基於MiMo-7B-SFT模型訓練的強化學習模型，在數學與代碼推理任務上達到與OpenAI o1-mini比肩的性能。

大型語言模型

小米推出的7B參數規模推理專用語言模型系列，通過優化預訓練和後訓練策略顯著提升數學與代碼推理能力

大型語言模型

VL-Reasoner-7B 是一個基於 GRPO-SSR 技術訓練的多模態推理模型，在多項多模態推理基準測試中表現卓越。

文本生成圖像

Transformers 英語

Timezero ActivityNet 7B

TimeZero是一種基於推理引導的大規模視覺語言模型（LVLM），專為時間視頻定位（TVG）任務設計，通過強化學習方法實現動態視頻-語言關係分析。

視頻生成文本

Deepseek R1 Bf16

DeepSeek-R1是第一代推理模型，在數學、代碼和推理任務上表現出色，性能可與OpenAI-o1相媲美。

大型語言模型

opensourcerelease

Promptist是基於強化學習的自動提示詞優化工具，專為Stable Diffusion設計，可將用戶輸入轉化為模型偏好的提示詞。

Dqn SpaceInvadersNoFrameskip V4

這是一個基於 DQN 算法的強化學習智能體，專門用於玩 SpaceInvadersNoFrameskip-v4 遊戲，使用 stable-baselines3 庫訓練。

Dqn Mountaincar V0 Zoo

這是一個基於深度Q網絡(DQN)的強化學習智能體，專門用於解決MountainCar-v0環境中的任務。

物理學模型

Dqn Mountaincar V0

這是一個基於深度Q網絡(DQN)的強化學習智能體，專門訓練用於解決MountainCar-v0環境中的控制問題。

物理學模型

Dqn SpaceInvadersNoFrameskip V4

這是一個基於穩定基線3庫訓練的DQN智能體，專門用於玩SpaceInvadersNoFrameskip-v4遊戲。

Dqn BeamRiderNoFrameskip V4

這是一個基於DQN算法的強化學習模型，專門用於Atari遊戲BeamRiderNoFrameskip-v4環境。

Dqn BreakoutNoFrameskip V4

這是一個基於DQN算法的深度強化學習模型，專門用於Atari遊戲BreakoutNoFrameskip-v4環境。

Dqn SpaceInvadersNoFrameskip V4

這是一個基於深度Q網絡(DQN)的強化學習智能體，專門訓練用於玩Atari遊戲《太空侵略者》

這是一個基於 stable-baselines3 庫訓練的 DQN 強化學習智能體，專門用於解決 Acrobot-v1 控制問題。

物理學模型

Dqn PongNoFrameskip V4

這是一個基於DQN算法的強化學習模型，專門用於在PongNoFrameskip-v4環境中進行遊戲。

Ppo BipedalWalker V3

這是一個使用 stable-baselines3 庫訓練的 PPO 智能體模型，專門用於 BipedalWalker-v3 環境中的強化學習任務。

蛋白質模型

PPO LunarLander V2

這是一個基於PPO算法的強化學習模型，專為LunarLander-v2環境訓練，能夠控制月球著陸器安全著陸。

物理學模型

Dqn LunarLander V2

這是一個使用stable-baselines3庫訓練的DQN智能體，用於解決LunarLander-v2環境中的強化學習任務。

Ppo Pendulum V1

這是一個基於PPO算法的強化學習模型，專門用於解決Pendulum-v1環境中的控制問題。

物理學模型

Ppo PongNoFrameskip V4

這是一個基於stable-baselines3庫訓練的PPO智能體，專門用於玩雅達利遊戲PongNoFrameskip-v4。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase