Q

Qwen GLOCON Reasoning

shreyasmeherによって開発
Qwen2.5-3B-Instructに基づく強化学習モデルで、紛争イベントの分類に特化しており、GRPO手法を用いて複数の報酬信号と構造化された推論フォーマットを最適化しています。
ダウンロード数 51
リリース時間 : 2/18/2025

モデル概要

このモデルはGRPO強化学習によって最適化されたテキスト分類モデルで、社会紛争イベントの識別と分類に特化しています。ニュース記事を分析し、イベントのトリガー、参加者、場所、暴力の性質を識別し、5つの事前定義されたカテゴリのいずれかに分類することができます。

モデル特徴

GRPO強化学習最適化
GRPO手法を用いて複数の報酬信号を同時に最適化し、強化信号を通じて構造化された推論フォーマットを強制します
構造化XML出力
特定のXMLフォーマットに従った出力を強制し、詳細な推論プロセスと最終的な分類結果を含みます
多言語サポート
13言語の紛争イベント分類をサポートします
メモリ最適化
4ビット量子化、勾配チェックポイント技術、vLLM推論加速を採用し、GPUメモリ使用率を60%以下に抑えます

モデル能力

紛争イベント分類
構造化推論
多言語テキスト分析
XMLフォーマット出力

使用事例

社会研究
民事紛争イベント分類
ニュース記事を分析し、デモ行進、武力衝突などの社会イベントを識別・分類します
5つの主要イベントカテゴリのいずれかに正確に分類されます
学術研究
透明な意思決定プロセス分析
推論プロセスを含む分類結果を提供し、学術研究の検証を容易にします
詳細な推論ステップを含む分類結果
教育
RL分類教育デモ
強化学習をテキスト分類に応用するデモンストレーションケースとして
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase