O

OREAL 32B SFT

internlmによって開発
OREAL-32B-SFTはQwen2.5-32Bをベースとした教師あり微調整モデルで、数学推論タスク専用に設計されており、OREA強化学習フレームワークの初期方策モデルです。
ダウンロード数 18
リリース時間 : 2/10/2025

モデル概要

このモデルはOREALシリーズの32Bパラメータ規模の教師あり微調整バージョンで、主に数学推論タスクに使用され、強化学習トレーニングの出発点として機能します。

モデル特徴

数学推論最適化
数学推論タスクに特化して最適化されており、複雑な数学問題を処理可能
強化学習基盤
OREA強化学習フレームワークの初期方策モデルとして、後続の強化学習トレーニングの基盤を提供
高品質な教師あり微調整
注意深く設計された教師あり微調整プロセスにより、モデルが良好な初期性能を備えることを保証

モデル能力

数学問題解答
論理的推論
多段階問題解決
数学的証明生成

使用事例

教育
数学競技指導
学生が数学競技の問題を解決するのを支援し、段階的な解答を提供
数学学習支援
学生に数学問題の詳細な解答と説明を提供
研究
強化学習研究
強化学習トレーニングの初期方策モデルとして
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase