Openchat V2
其他
OpenChat v2系列是基於LLaMA-13B框架的語言模型,採用條件加權損失訓練,在多個基準測試中超越ChatGPT表現。
大型語言模型
Transformers 英語

O
openchat
1,090
13
Mimo 7B RL 0530
MIT
MiMo是一系列專為推理任務從頭訓練的7B參數模型,通過優化預訓練和後訓練策略,在數學和代碼推理任務上表現出色。
大型語言模型
Transformers

M
XiaomiMiMo
319
17
Qwenlong L1 32B GGUF
Apache-2.0
QwenLong-L1-32B 是專為長上下文推理設計的大語言模型,通過強化學習訓練,在多個長上下文問答基準測試中表現出色,能有效處理複雜的推理任務。
大型語言模型
Transformers

Q
Mungert
927
7
Thinkless 1.5B RL DeepScaleR
Apache-2.0
Thinkless是一個通過強化學習訓練的大語言模型,能夠自適應選擇簡答或長鏈推理模式,顯著降低推理計算成本。
大型語言模型
Transformers

T
Vinnnf
197
1
Seed Coder 8B Reasoning Bf16
MIT
Seed-Coder是一個8B規模的開源代碼模型家族,包含基礎版、指導版和推理版。推理版通過強化學習訓練提升推理能力,支持64K上下文長度。
大型語言模型
Transformers

S
ByteDance-Seed
4,382
9
AM Thinking V1
Apache-2.0
專注於增強推理能力的320億參數稠密語言模型,基於Qwen 2.5‑32B‑Base構建,在推理基準測試中展現出與更大規模MoE模型相媲美的性能。
大型語言模型
Transformers

A
a-m-team
1,377
153
Mimo 7B SFT
MIT
MiMo-7B-RL是基於MiMo-7B-SFT模型訓練的強化學習模型,在數學與代碼推理任務上達到與OpenAI o1-mini比肩的性能。
大型語言模型
Transformers

M
XiaomiMiMo
1,183
23
Mimo 7B Base
MIT
小米推出的7B參數規模推理專用語言模型系列,通過優化預訓練和後訓練策略顯著提升數學與代碼推理能力
大型語言模型
Transformers

M
XiaomiMiMo
12.75k
101
VL Reasoner 7B
Apache-2.0
VL-Reasoner-7B 是一個基於 GRPO-SSR 技術訓練的多模態推理模型,在多項多模態推理基準測試中表現卓越。
文本生成圖像
Transformers 英語

V
TIGER-Lab
126
1
Timezero ActivityNet 7B
TimeZero是一種基於推理引導的大規模視覺語言模型(LVLM),專為時間視頻定位(TVG)任務設計,通過強化學習方法實現動態視頻-語言關係分析。
視頻生成文本
Transformers

T
wwwyyy
142
1
Deepseek R1 Bf16
MIT
DeepSeek-R1是第一代推理模型,在數學、代碼和推理任務上表現出色,性能可與OpenAI-o1相媲美。
大型語言模型
Transformers

D
opensourcerelease
1,486
16
Promptist
Promptist是基於強化學習的自動提示詞優化工具,專為Stable Diffusion設計,可將用戶輸入轉化為模型偏好的提示詞。
文本生成
Transformers

P
microsoft
478
66
Dqn SpaceInvadersNoFrameskip V4
這是一個基於 DQN 算法的強化學習智能體,專門用於玩 SpaceInvadersNoFrameskip-v4 遊戲,使用 stable-baselines3 庫訓練。
視頻處理
D
0xrushi
13
0
Dqn Mountaincar V0 Zoo
這是一個基於深度Q網絡(DQN)的強化學習智能體,專門用於解決MountainCar-v0環境中的任務。
物理學模型
D
Galeros
16
0
Dqn Mountaincar V0
這是一個基於深度Q網絡(DQN)的強化學習智能體,專門訓練用於解決MountainCar-v0環境中的控制問題。
物理學模型
D
Galeros
18
0
Dqn SpaceInvadersNoFrameskip V4
這是一個基於穩定基線3庫訓練的DQN智能體,專門用於玩SpaceInvadersNoFrameskip-v4遊戲。
視頻處理
D
ThomasSimonini
32
1
Dqn BeamRiderNoFrameskip V4
這是一個基於DQN算法的強化學習模型,專門用於Atari遊戲BeamRiderNoFrameskip-v4環境。
視頻處理
D
sb3
169
0
Dqn BreakoutNoFrameskip V4
這是一個基於DQN算法的深度強化學習模型,專門用於Atari遊戲BreakoutNoFrameskip-v4環境。
視頻處理
D
sb3
20
2
Dqn SpaceInvadersNoFrameskip V4
這是一個基於深度Q網絡(DQN)的強化學習智能體,專門訓練用於玩Atari遊戲《太空侵略者》
視頻處理
D
sb3
58
4
Dqn Acrobot V1
這是一個基於 stable-baselines3 庫訓練的 DQN 強化學習智能體,專門用於解決 Acrobot-v1 控制問題。
物理學模型
D
sb3
403
0
Dqn PongNoFrameskip V4
這是一個基於DQN算法的強化學習模型,專門用於在PongNoFrameskip-v4環境中進行遊戲。
視頻處理
D
sb3
16
1
Ppo BipedalWalker V3
這是一個使用 stable-baselines3 庫訓練的 PPO 智能體模型,專門用於 BipedalWalker-v3 環境中的強化學習任務。
蛋白質模型
P
sb3
22
0
PPO LunarLander V2
這是一個基於PPO算法的強化學習模型,專為LunarLander-v2環境訓練,能夠控制月球著陸器安全著陸。
物理學模型
P
BioGeek
102
0
Dqn LunarLander V2
這是一個使用stable-baselines3庫訓練的DQN智能體,用於解決LunarLander-v2環境中的強化學習任務。
D
araffin
54
2
Ppo Pendulum V1
這是一個基於PPO算法的強化學習模型,專門用於解決Pendulum-v1環境中的控制問題。
物理學模型
P
sb3
51
2
Ppo PongNoFrameskip V4
這是一個基於stable-baselines3庫訓練的PPO智能體,專門用於玩雅達利遊戲PongNoFrameskip-v4。
視頻處理
P
ThomasSimonini
148
1
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98