Q

Qwen GLOCON Reasoning

由shreyasmeher開發
基於Qwen2.5-3B-Instruct的強化學習模型,專門用於衝突事件分類,採用GRPO方法優化多獎勵信號和結構化推理格式。
下載量 51
發布時間 : 2/18/2025

模型概述

本模型是一個經過GRPO強化學習優化的文本分類模型,專門用於識別和分類社會衝突事件。它能夠分析新聞報道,識別事件觸發因素、參與者、地點和暴力性質,並將其歸類到五個預定義類別之一。

模型特點

GRPO強化學習優化
採用GRPO方法實現多獎勵信號同步優化,通過強化信號強制結構化推理格式
結構化XML輸出
強制模型遵循特定的XML格式輸出,包含詳細推理過程和最終分類結果
多語言支持
支持13種語言的衝突事件分類
內存優化
採用4位量化、梯度檢查點技術和vLLM加速推理,GPU內存使用率上限60%

模型能力

衝突事件分類
結構化推理
多語言文本分析
XML格式輸出

使用案例

社會研究
民事衝突事件分類
分析新聞報道,識別和分類示威遊行、武裝衝突等社會事件
準確歸類到五大事件類別之一
學術研究
透明決策過程分析
提供帶有推理過程的分類結果,便於學術研究驗證
包含詳細推理步驟的分類結果
教育
RL分類教學演示
作為強化學習在文本分類中應用的示範案例
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase