C

Codellama 7b Hf ReFT GSM8k

lqtrung1998によって開発
強化学習による微調整で大規模言語モデルの推論汎化能力を強化、Codellamaをベースに微調整され、コード生成と理解タスクに適しています。
ダウンロード数 38
リリース時間 : 1/29/2024

モデル概要

ReFT手法は強化学習による微調整で大規模言語モデルの数学推論タスクにおける性能を向上させ、特にGSM8k数学問題データセットに最適化されています。

モデル特徴

強化学習微調整
強化学習でモデルの数学推論タスクにおける性能を最適化
Python SDP思考連鎖
Python構造化思考連鎖フォーマットでモデルを訓練
再ランキング機構
出力思考連鎖の正しさを評価する専用再ランキングモデルを装備

モデル能力

数学問題解決
Pythonコード生成
構造化推論
思考連鎖生成

使用事例

教育
数学問題解答
GSM8kデータセットの数学応用問題を解決
GSM8kテストセットで81.2%の精度を達成
プログラミング支援
コード生成
数学問題の記述からPython解決コードを生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase