# 強化学習推論

Acereason Nemotron 14B GGUF
その他
強化学習で訓練された数学とプログラミング推論モデルで、複数のベンチマークテストで優れた性能を発揮
大規模言語モデル Transformers 英語
A
unsloth
1,417
4
Seed Coder 8B Reasoning GGUF
MIT
Seed-Coder-8B-Reasoningは8B規模のオープンソースコードモデルで、コード生成と推論タスクに特化しており、強力な性能と効率的なパラメータ利用を備えています。
大規模言語モデル Transformers
S
unsloth
2,550
2
Seed Coder 8B Instruct
MIT
Seed-Coder-8B-Instructは8B規模のオープンソースコードモデルで、ユーザーの意図に合わせるために命令微調整されており、32Kのコンテキスト長をサポートしています。
大規模言語モデル Transformers
S
ByteDance-Seed
3,103
83
Open Reasoner Zero 7B
MIT
オープンリーズナーゼロは、基礎モデルのスケーラブルな強化学習に焦点を当てたオープンソースソリューションで、拡張性、簡潔性、使いやすさを重視した大規模推論指向の強化学習実装です。
大規模言語モデル Transformers
O
Open-Reasoner-Zero
776
28
Deepseek R1 Distill Qwen 32B Unsloth Bnb 4bit
Apache-2.0
DeepSeek-R1はDeepSeekチームによって開発された初代推論モデルで、大規模な強化学習トレーニングを通じて、教師付き微調整(SFT)を最初のステップとせずに、卓越した推論能力を発揮します。
大規模言語モデル Transformers 英語
D
unsloth
938
10
Deepseek R1 Zero
MIT
DeepSeek-R1はDeepSeekが開発した第一世代推論モデルで、強化学習によって訓練され、数学、コード、推論タスクで優れた性能を発揮します。
大規模言語モデル Transformers
D
deepseek-ai
4,034
905
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase