The Teacher
モデル概要
モデル特徴
モデル能力
使用事例
🚀 Qwen3-1.7B-RLVRモデルカード
このモデルはQwen3-1.7Bをベースに微調整され、強化学習技術を用いて数学的推論能力を向上させています。数学問題の解決やコード生成などのタスクで優れた性能を発揮し、少量の訓練データでも効率的な推論が可能です。
🚀 クイックスタート
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-1.7B-RLVR" # プレースホルダー;実際のモデルIDに置き換えてください
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
# 例:数学的推論のプロンプト
prompt = "以下の問題を段階的に解いてください:2048の立方根を計算します。"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=500)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
✨ 主な機能
- 効率的な推論強化:1-shot強化学習と検証可能な報酬(RLVR)を利用し、少量の訓練データで数学的推論能力を向上させます。
- 動的トポロジー推論:ARIESなどのマルチエージェント推論フレームワークに統合でき、動的トポロジー推論を実現します。
- 多様なタスクへの適用:ゼロショット分類、数学問題の解決、コード生成などの様々なタスクに適用可能です。
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-1.7B-RLVR" # プレースホルダー;実際のモデルIDに置き換えてください
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
# 例:数学的推論のプロンプト
prompt = "以下の問題を段階的に解いてください:2048の立方根を計算します。"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=500)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📚 ドキュメント
モデルの詳細
モデルの説明
このモデルはQwen3-1.7Bの微調整バージョンで、1-shot強化学習と検証可能な報酬(RLVR)を用いて強化され、数学的推論能力を向上させています。Wangら(2025)によると、RLVR手法は単一の訓練例を使用して数学ベンチマークでの性能を向上させます。このモデルはARIESなどのフレームワークで評価されており(Gimenesら、2025)、これはトポロジー推論用のマルチエージェントアーキテクチャで、コーディングや数学問題の解決などのタスクで優れた性能を発揮します。なお、RLVR論文で主に議論されているのはQwen2.5-Math-1.5Bであり、Qwen3-1.7Bの性能指標は推定値であり、実際の値と異なる可能性があります。このモデルカードは2025年6月11日に更新されました。
- 開発者:ワシントン大学、ロンドン帝国大学、ケンブリッジ大学、マイクロソフト、南カリフォルニア大学、カリフォルニア大学サンタクルーズ校、ジョージア工科大学のYiping Wang、Pedro Gimenesらの共同研究者。
- 資金提供元:提供されたドキュメントで指定されていません。
- 共有元:提供されたドキュメントで指定されていません。
- モデルの種類:数学的推論とトポロジー推論に使用されるTransformerベースの大規模言語モデル。
- 言語(NLP):英語。
- ライセンス:MIT。
- 微調整のベースモデル:Qwen3-1.7B。
モデルの出所
- リポジトリ:指定されていません;Hugging Face Hubにホストされていると仮定します。
- 論文:
- Wang, Y., 他(2025)。“Reinforcement Learning for Reasoning in Large Language Models with One Training Example.” arXiv:2504.20571v2。
- Gimenes, P., 他(2025)。“ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments.” arXiv:2502.21208v1。
- デモ:利用できません。
使用方法
直接使用
このモデルはゼロショット分類と推論タスク、特に数学問題の解決とコーディングに特化して設計されています。MATH500ベンチマークの問題、HumanEvalコーディングタスク、またはより単純なトポロジー推論タスク(リストのソート、集合の積集合など)を解くために、追加の微調整なしで直接使用できます。
下流の使用
このモデルは、以下の目的でより大きなシステムに統合できます。
- 自動コード生成と検証(HumanEvalタスクなど)。
- 数学問題の解決に使用する教育ツール。
- ARIESなどのマルチエージェント推論フレームワークで、思考グラフ環境での戦略または推論エージェントとして機能します。
- 特定のドメインの推論タスクに対してさらに微調整することができます。
適用範囲外の使用
- このモデルは非英語タスクやマルチモーダル入力に対して最適化されていません。
- 追加の微調整なしでは、長期的な計画や高度に特定のドメイン知識を必要とするタスクでは性能が低下する可能性があります。
- 偏見や有害な内容を生成する誤用は適用範囲外です。このモデルはベースとなる大規模言語モデルの偏見を引き継いでいます。
偏見、リスク、制限事項
偏見とリスク
- 内在する大規模言語モデルの偏見:このモデルはベースとなるQwen3-1.7Bモデルに存在する偏見を伝播する可能性があり、推論タスクで不公平または誤解を招く結果をもたらす可能性があります。
- ランダムエラー:Gimenesら(2025)によると、大規模言語モデルの出力のランダム性が推論経路の誤りを引き起こす可能性があり、特に深度分解設定で顕著です。
- 環境への影響:RLVRやARIESのような大量の推論方法は大量の計算資源を必要とし、持続可能性の問題を引き起こします(Gimenesら、2025)。
- ラベルノイズに対するロバスト性:Wangら(2025)によると、RLVRはラベルノイズに部分的にロバストですが、高い誤り率(90%の誤ったラベルなど)では性能が低下します。
制限事項
- モデルのサイズ:小さなモデル(17億パラメータなど)は、複雑な推論タスクではLlama-3.1-405Bなどの大きなモデルよりも性能が劣る可能性があります(Gimenesら、2025)。
- 分解深度:問題の分解深度が増すにつれて性能が低下し、特に成功確率が低いタスクで顕著です(Gimenesら、2025)。
- 1-shot RLVRでの過学習:単一の例で長時間訓練すると、訓練例の出力が理解しにくくなる可能性がありますが、テスト性能は依然として安定しています(Wangら、2025)。
- 汎化能力:評価は特定のベンチマーク(MATH500、HumanEval、ソート、集合の積集合)に限定されており、結果は曖昧またはマルチモーダルなタスクに一般化できない可能性があります。
- モデルの不確定性:Qwen3-1.7Bの基礎性能に関する情報は限られており、結果はQwen2.5-Math-1.5Bから推定されています。
提案
- ランダムエラーの可能性があるため、ユーザーは重要なアプリケーションでは出力結果を検証する必要があります。
- 大規模なデプロイメントでは環境への影響を考慮し、可能な限りクエリ効率を最適化してください。
- 複雑なタスクでは、より大きなモデルまたはARIESのような集約方法を検討してください。
- 偏見を監視し、下流のアプリケーションの公平性を確保してください。
訓練の詳細
訓練データ
- RLVR訓練データ:Wangら(2025)によると、DeepScaleRサブセット(DSR-sub)または同様のデータセットからの単一の例(例:$\pi_1$:立方根の計算を含む物理関連の数学問題の解決)。使用されるデータセットはHuggingFaceH4/MATH-500です。
- ARIES評価データ:コーディングにはHumanEval、リストのソートと集合の積集合タスクにはカスタムベンチマークが使用されます(Gimenesら、2025)。
訓練プロセス
前処理
- RLVRの場合、訓練例は真のラベル付きのプロンプトとしてフォーマットされ、段階的な推論(思考連鎖、CoT)を促します。
- ARIESでは、思考グラフの状態はノードの説明、エッジ、アクション履歴を含むテキスト形式で表されます。
訓練ハイパーパラメータ
- 強化学習アルゴリズム:GRPO(デフォルト)またはPPO。ポリシー勾配損失とエントロピー損失を使用して探索を促進します(Wangら、2025)。
- エントロピー損失係数:性能を向上させるために調整され、飽和後の汎化に重要です。
- 訓練ステップ:1-shot RLVRでは、約1400ステップ後に過学習が発生する可能性があります。
- 訓練メカニズム:指定されていません;標準的な大規模言語モデルの実践に基づき、fp16混合精度である可能性があります。
- 温度:ARIES実験でのサンプリング時は1.0です(Gimenesら、2025)。
速度、サイズ、時間
- RLVR訓練:指定されていないハードウェアで実行されます;モデルのサイズから、GPUベースであると仮定されます。
- ARIES実験:Llama-3.1-70Bは8×A6000 GPUを使用し、Llama-3.1-405Bは16×H100 GPUを使用し、合計で約3000 GPU時間がかかります(Gimenesら、2025)。
評価
テストデータ、要因、指標
テストデータ
- MATH500:500個の数学的推論問題(Wangら、2025)。
- その他の数学ベンチマーク:AIME24、AMC23、Minerva Math、OlympiadBench、AIME25(Wangら、2025)。
- HumanEval:テストケース付きのPythonコーディング問題(Gimenesら、2025)。
- ソートと集合の積集合:異なる難易度レベルのカスタムベンチマーク(32、64、128個の要素)(Gimenesら、2025)。
要因
- モデルのサイズ:17億(推定)、70億、405億パラメータのモデルが評価されました。
- 分解深度:トポロジー推論タスクの性能に影響を与えます。
- 訓練例:特定の例($\pi_1$、$\pi_{13}$など)によって改善の程度が異なります。
- 強化学習アルゴリズム:GRPOとPPO。
- 集約サイズ:ARIESでのポリシーエージェントの集約サイズ(1 - 15)。
指標
- 正解率:正しい解の割合(HumanEval、MATH500)。
- 誤差関数($\mathcal{E}$):ソートと集合の積集合の特定タスクの誤差で、不正なペアまたは欠落/余分な要素として定義されます(Gimenesら、2025)。
- クエリコスト:探索($C_s$)と推論($C_i$)の大規模言語モデルのクエリ回数。
- 平均性能:複数のベンチマークの平均正解率。
結果
-
RLVRの結果(Wangら、2025):
- Qwen2.5-Math-1.5BをベースとしたQwen3-1.7Bの推定性能:例$\pi_1$を使用した1-shot RLVRの後、MATH500の正解率は36.0%から73.6%に向上し、6つのベンチマークの平均正解率は17.6%から35.7%に向上しました。
- 2-shot RLVRは全集合RLVRよりもわずかに優れています(MATH500で74.8%、平均で36.6%)。
- 異分野への汎化が観察されました(例:幾何学の例が代数タスクを改善する)。
- 60%のラベルノイズに対してロバストですが、90%のノイズでは性能が低下します。
-
ARIESの結果(Gimenesら、2025):
- Llama-3.1-405BはHumanEvalで89.0%の正解率を達成し、最良の静的スケジューリングベースライン(GoT_{100%})よりも28.9%高い結果を得ました。Qwen3-1.7Bの性能は同等と仮定されますが、ロバスト性は低い可能性があります。
- 最適化された静的スケジューリングと比較して、推論コストが54%削減されました。
- 集合の積集合32では誤差が2.3倍減少し、クエリコストが116倍削減されました。
- 失敗パターン:小さなモデル(17億パラメータなど)と高い分解深度は性能を低下させます。
まとめ
このモデルは少量の訓練データで数学とコーディングタスクで優れた性能を発揮する可能性があり、RLVRを利用して効率的な推論を強化し、ARIESを利用して動的トポロジー推論を実現します。ただし、性能はモデルのサイズとタスクの複雑さに制限され、Qwen3-1.7Bの特定のデータが限られているため、不確定性があります。
モデルの検査
- 飽和後の汎化(Wangら、2025):訓練正解率が飽和した後も、テスト正解率が向上することが観察されます。これは非ゼロのポリシー勾配損失とエントロピー損失によって駆動されます。
- 自己反省(Wangら、2025):RLVR訓練中に、出力に含まれる自己反省用語の頻度が増加します。
- 遷移確率(Gimenesら、2025):細分化($\phi_{\text{ref}}$)の成功確率は低く(例:HumanEvalで0.29)、探索戦略に影響を与えます。
環境への影響
- ハードウェアの種類:ARIES実験では、Llama-3.1-70Bは8×A6000 GPUを使用し、Llama-3.1-405Bは16×H100 GPUを使用します。
- 使用時間:ARIES実験では約3000 GPU時間が使用されました。
- クラウドサービスプロバイダー:指定されていません。
- 計算エリア:指定されていません。
- 二酸化炭素排出量:計算されていません;高い推論要求により、排出量は多いと考えられます。ユーザーは機械学習影響計算機を使用して排出量を推定できます。
技術仕様
モデルのアーキテクチャと目標
- アーキテクチャ:Qwen3-1.7Bから継承されたTransformerベース。
- 目標:RLVRポリシー勾配最適化とARIES思考グラフ探索により、推論正解率を最大化します。
計算インフラストラクチャ
ハードウェア
- ARIESで上述したGPU;RLVRについては指定されていませんが、GPUベースである可能性があります。
ソフトウェア
- Transformersライブラリ:adapter-transformers。
- 強化学習フレームワーク:RLVRにはGRPO/PPOの実装が使用されます。
- SGLang:ARIES実験で大規模言語モデルをホストするために使用されます。
引用
BibTeX
@article{wang2025reinforcement,
title={Reinforcement Learning for Reasoning in Large Language Models with One Training Example},
author={Wang, Yiping and Yang, Qing and Zeng, Zhiyuan and Ren, Liliang and Liu, Liyuan and Peng, Baolin and Cheng, Hao and He, Xuehai and Wang, Kuan and Gao, Jianfeng and others},
journal={arXiv preprint arXiv:2504.20571v2},
year={2025}
}
@article{gimenes2025aries,
title={ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments},
author={Gimenes, Pedro and Cao, Zeyu and Wong, Jeffrey and Zhao, Yiren},
journal={arXiv preprint arXiv:2502.21208v1},
year={2025}
}
APA
Wang, Y., Yang, Q., Zeng, Z., Ren, L., Liu, L., Peng, B., ... Shen, Y. (2025). Reinforcement Learning for Reasoning in Large Language Models with One Training Example. arXiv preprint arXiv:2504.20571v2.
Gimenes, P., Cao, Z., Wong, J., & Zhao, Y. (2025). ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments. arXiv preprint arXiv:2502.21208v1.
用語集
- RLVR:強化学習と検証可能な報酬。結果ベースの報酬を使用して大規模言語モデルを微調整します。
- ARIES:対話型思考グラフ環境での大規模言語モデルによる自律的推論。トポロジー推論用のマルチエージェントフレームワークです。
- 思考グラフ:中間推論ステップ(ノード)とその関係(エッジ)のグラフベースの表現。
- ポリシー勾配損失:大規模言語モデルの出力分布を最適化することで、RLVRの改善を促進します。
- エントロピー損失:多様な出力を促進し、RLVRとARIESでの探索に重要です。
詳細情報
- 詳細な方法と実験設定については、引用された論文を参照してください。
- さらなる相談が必要な場合は、著者の所属機関のメールアドレスを通じて連絡してください。
モデルカードの作成者
このモデルカードはYiping Wang、Pedro Gimenesらの共同研究者の研究に基づいて生成され、メタデータはユーザーから提供されました。2025年6月11日に更新されました。
モデルカードの連絡先
質問や連絡が必要な場合は、https://www.shivik.in/をご覧ください。または、引用論文の著者に連絡するか、Hugging Face Hubのリポジトリを確認して最新情報を取得してください。
変更と仮定の説明
- YAMLメタデータ:上部に完全なYAMLメタデータブロックを追加しました。
language
、license
、tags
、datasets
、評価結果を含むmodel-index
を含み、Hugging Faceの要件を満たすようにしました。 - 連絡リンク:要求通り、「モデルカードの連絡先」セクションに提供された連絡リンク(https://www.shivik.in/)を組み込みました。
- 日付の追加:モデルの説明とモデルカードの作成者セクションに「2025年6月11日」を追加して、現在の日付を反映しました。
- Qwen3-1.7B:あなたの指示に従い、Qwen3-1.7Bをベースモデルとして保持し、RLVR論文でQwen3-1.7Bの特定のデータが限られているため、性能指標はQwen2.5-Math-1.5Bから推定されていることを明記しました。
- アーティファクトタグ:これは新しいアーティファクトであるため、新しいUUID (
a8b9c7d2-3e4f-4b7a-9c1d-5f6e7a8b9c0d
) を持つ<xaiArtifact/>
タグでモデルカード全体をラップし、タイトルを「Qwen3-1.7B-RLVRモデルカード」とし、contentType="text/markdown"
としました。 - 性能指標:以前の反復と同じ指標(例:MATH500で73.6%、HumanEvalで89.0%)を使用し、Qwen3-1.7Bの結果はQwen2.5-Math-1.5Bとより大きなモデルに基づく仮定であることを宣言しました。
- 不足情報:リポジトリのリンクとQwen3-1.7Bの特定の訓練詳細はまだ指定されていません;標準的な実践とARIESの実験詳細に基づいて仮定されています。
もしより詳細な情報(Qwen3-1.7Bの特定の性能、実際のリポジトリのリンク、または他のメタデータフィールドなど)があれば、提供していただければ、カードをさらに改善することができます。他の調整が必要な場合は、お知らせください!
📄 ライセンス
このモデルはMITライセンスを使用しています。
属性 | 詳細 |
---|---|
モデルの種類 | 数学的推論とトポロジー推論に使用されるTransformerベースの大規模言語モデル |
訓練データ | RLVR訓練データはDeepScaleRサブセット(DSR - sub)または同様のデータセットからの単一の例で、使用されるデータセットはHuggingFaceH4/MATH - 500です。ARIES評価データには、コーディング用のHumanEvalと、リストのソートと集合の積集合タスク用のカスタムベンチマークが含まれます。 |
⚠️ 重要な注意
このモデルはベースとなるQwen3 - 1.7Bモデルに存在する偏見を伝播する可能性があり、推論タスクで不公平または誤解を招く結果をもたらす可能性があります。大規模言語モデルの出力のランダム性により、推論経路の誤りを引き起こす可能性があり、特に深度分解設定で顕著です。大規模なデプロイメントでは環境への影響を考慮する必要があり、追加の微調整なしでは、長期的な計画や高度に特定のドメイン知識を必要とするタスクでは性能が低下する可能性があります。
💡 使用上の提案
ランダムエラーの可能性があるため、ユーザーは重要なアプリケーションでは出力結果を検証する必要があります。複雑なタスクでは、より大きなモデルまたはARIESのような集約方法を検討してください。偏見を監視し、下流のアプリケーションの公平性を確保し、可能な限りクエリ効率を最適化してください。



