ALP_DeepScaleR_1.5B_C16Kオープンソースモデル - tokenの使用量を削減しても、性能は依然として優れています

ホーム

ALP DeepScaleR 1.5B C16K

SynthLabsAIによって開発

ALP_DeepScaleR_1.5B_C16KはDeepScaleR - 1.5Bモデルをベースに、適応的長さペナルティ（ALP）方法を用いて訓練されたモデルで、性能を維持しながらトークン使用量を大幅に削減できます。

大規模言語モデル

Safetensors

オープンソースライセンス:Apache-2.0 #数学推理の最適化 #適応的長さペナルティ #効率的なトークン圧縮

ダウンロード数 333

リリース時間 : 5/27/2025

モデル概要

このモデルは適応的長さペナルティ技術によりトークン使用効率を最適化し、数学推理や競技問題の解答などのタスクに適しており、16Kの長文脈ウィンドウをサポートします。

モデル特徴

適応的長さペナルティ(ALP)

ALP技術によりトークン使用量を約50％削減し、推論効率を大幅に向上させます

長文脈サポート

16Kトークンの長文脈ウィンドウをサポートし、複雑な問題の処理に適しています

数学推理の最適化

MATH、AIMEなどの数学データセットで優れた性能を発揮します

モデル能力

数学問題の解決

競技問題の解答

段階的推論

長文処理

使用事例

教育

数学競技の指導

AMC/AIMEなどの数学競技問題を解答します

MATH - 500データセットで0.80の正解率を達成します

数学学習アシスタント

複雑な数学問題を段階的に解答します

\\boxed{}形式で最終解答を出力することをサポートします

研究

数学推理研究

数学推理モデルのベンチマークテストに使用します

OlympiadBenchで0.51の正解率を達成します

🚀 ALP_DeepScaleR_1.5B_C16K

ALP_DeepScaleR_1.5B_C16Kは、DeepScaleR - 1.5Bモデルをベースに、適応的長さペナルティ（ALP）手法を用いて訓練されたモデルです。このモデルは、性能を維持しながら、トークン使用量を約50％削減し、効率を大幅に向上させます。

🚀 クイックスタート

ALP_DeepScaleR_1.5B_C16Kは、DeepScaleR - 1.5Bモデルに基づいており、適応的長さペナルティ（ALP）手法を用いて訓練されています。これにより、性能を維持しながらトークン使用量を約50％削減することができ、効率が向上します。

✨ 主な機能

タグ：推論、数学、強化学習などの分野をカバーしています。
データセット：AIME、AMC、Omni - Mathなどのデータセットを使用して訓練されています。
ベースモデル：DeepScaleR - 1.5Bモデルをベースに構築されています。

📦 インストール

原文書にインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

prompt = f"{problem} Let's think step by step and output the final answer within \\boxed{{}}."

📚 ドキュメント

訓練の詳細

訓練ステップ：100ステップのGRPO訓練を行い、バッチサイズは512、学習率は1e - 6、β = 1e - 7です。
難易度推定：各プロンプトについて16回のロールアウトを行い、難易度を推定します。
コンテキストウィンドウ：16Kのコンテキストウィンドウをサポートしています。

性能指標（Pass@1）

データセット	正解率
MATH - 500	0.80
AIME	0.24
OlympiadBench	0.51

トークン使用状況

データセット	元のトークン数	最適化後のトークン数	削減率
MATH	2326	646	-72%
AIME	3906	2254	-42%
Olympiad	3309	2107	-36%

🔧 技術詳細

原文書に十分な技術詳細が記載されていないため、このセクションは省略されます。

📄 ライセンス

このプロジェクトは、Apache - 2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご