A

Aero 1 Audio

由lmms-lab開發
輕量級音頻模型,擅長語音識別、音頻理解及執行音頻指令等多元任務
下載量 1,348
發布時間 : 4/25/2025

模型概述

基於Qwen-2.5-1.5B語言模型構建的輕量級音頻模型,在多項音頻基準測試中表現優異,能精準處理長達15分鐘的連續音頻輸入。

模型特點

參數高效
即使與Whisper、Qwen-2-Audio、Phi-4-Multimodal等更大規模模型或ElevenLabs/Scribe等商業服務相比,仍保持參數高效性。
訓練效率高
僅用16張H100顯卡和5萬小時音頻數據,在一天內完成訓練。高質量過濾數據顯著提升訓練樣本效率。
長音頻處理能力
能精準處理長達15分鐘的連續音頻輸入(包括ASR和語義理解),當前多數模型在此場景下仍面臨挑戰。

模型能力

語音識別
音頻理解
執行音頻指令

使用案例

語音轉錄
音頻內容轉錄
將音頻內容轉錄為文本
精準處理長達15分鐘的連續音頻輸入
音頻理解
音頻語義理解
理解音頻中的語義內容
在多項音頻基準測試中表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase