T

The Teacher

shiviktechによって開発
Qwen3-1.7Bをベースに微調整し、強化学習技術によって数学的推論能力を向上させた言語モデル
ダウンロード数 824
リリース時間 : 5/31/2025

モデル概要

このモデルは、1-shot強化学習と検証可能な報酬(RLVR)技術を利用して数学的推論能力を強化し、数学問題の解決やコード生成などのタスクに適しており、動的トポロジー推論フレームワークの統合をサポートしています。

モデル特徴

効率的な推論強化
1-shot強化学習と検証可能な報酬(RLVR)技術により、少量の訓練データで数学的推論能力を大幅に向上させます。
動的トポロジー推論
ARIESなどのマルチエージェント推論フレームワークに統合でき、複雑な動的トポロジー推論を実現します。
マルチタスク適用性
数学問題の解決、コード生成、ゼロサンプル分類などの様々なタスクをサポートし、追加の微調整を必要としません。

モデル能力

数学的推論
コード生成
ゼロサンプル分類
段階的な問題解決
トポロジー推論

使用事例

教育
数学問題の解答
複雑な数学問題を解き、段階的な推論過程を提供します。
MATH500ベンチマークテストでの正解率が36.0%から73.6%に向上しました。
ソフトウェア開発
コード生成と検証
Pythonコードを自動生成し、その正しさを検証します。
HumanEvalコーディングタスクで89.0%の正解率を達成しました。
研究ツール
マルチエージェント推論フレームワーク
ARIESフレームワーク内の戦略または推論エージェントとして機能します。
推論コストが54%削減され、集合積タスクの誤差が2.3倍減少しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase