Qwen2 Audio 7B GGUF
Qwen2-Audio是先進的小規模多模態模型,支持音頻與文本輸入,無需依賴語音識別模塊即可實現語音交互。
下載量 5,001
發布時間 : 10/23/2024
模型概述
Qwen2-Audio是一個多模態模型,能夠處理音頻和文本輸入,支持中英文及主要歐洲語言,適用於語音對話和音頻分析等多種場景。
模型特點
多模態處理
支持音頻與文本輸入,無需依賴語音識別模塊即可實現語音交互。
多語言支持
支持中英文及主要歐洲語言,為本地化場景提供語音對話和音頻分析能力。
GGUF量化
提供多種GGUF量化方案,適合在邊緣設備本地運行。
高性能
在所有任務中顯著超越前代SOTA模型及Qwen-Audio。
模型能力
說話人識別與應答
語音翻譯與轉寫
混合音頻及噪聲檢測
音樂與聲音分析
日常問答
建議提供
即時語音翻譯
環境噪聲識別響應
關鍵信息提取
音頻內容摘要
語音轉錄與擴展
混合音頻分離檢測
音樂特徵分析
使用案例
語音交互
日常問答
通過語音進行日常問題的問答交互。
說話人識別應答
識別說話人並進行相應的應答。
即時語音翻譯
即時將語音翻譯成其他語言。
音頻分析
關鍵信息提取
從音頻中提取關鍵信息。
音頻內容摘要
生成音頻內容的摘要。
音樂特徵分析
分析音樂的特徵和屬性。
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98