R

R1 Aqa

由mispeech開發
R1-AQA是基於Qwen2-Audio-7B-Instruct的音頻問答模型,通過群體相對策略優化(GRPO)算法進行強化學習優化,在MMAU基準測試中取得最先進性能。
下載量 791
發布時間 : 3/13/2025

模型概述

R1-AQA是一個專門用於音頻問答(AQA)任務的模型,通過強化學習優化,能夠在少量訓練數據下實現高性能。

模型特點

強化學習優化
使用群體相對策略優化(GRPO)算法進行優化,顯著提升性能。
小樣本高效訓練
僅使用38k訓練樣本即超越監督微調效果,展示強化學習在小數據集上的優勢。
高性能音頻問答
在MMAU基準測試中取得最先進性能,優於多個大型模型。

模型能力

音頻問答
音頻內容理解
多選項問題回答

使用案例

智能助手
音頻內容分析
分析音頻內容並回答相關問題,如識別說話者性別等。
在MMAU測試中準確率高達69.76%
教育
音頻學習輔助
幫助學生理解音頻教學內容並回答問題。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase