Q

Qwen2.5 Omni 7B GGUF

由Mungert開發
Qwen2.5-Omni-7B是一款功能強大的多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態信息,並以流式方式生成文本和自然語音響應。
下載量 979
發布時間 : 6/11/2025

模型概述

該模型是一個端到端的多模態模型,旨在感知多種模態,包括文本、圖像、音頻和視頻,同時以流式方式生成文本和自然語音響應。

模型特點

全模態感知
能夠感知文本、圖像、音頻和視頻等多種模態信息。
流式響應
以流式方式生成文本和自然語音響應,實現即時交互。
新量化方法
通過規則提升重要層的量化精度,在低比特量化和MOE模型中表現更優。
即時語音和視頻聊天
架構設計用於完全即時交互,支持分塊輸入和即時輸出。
跨模態強大性能
在多模態任務中表現優於類似規模的單模態模型和閉源模型。

模型能力

文本生成
圖像分析
語音識別
視頻理解
音頻理解
語音生成
多模態任務處理

使用案例

即時交互
即時語音聊天
支持即時語音輸入和輸出,實現自然對話。
在語音生成方面優於許多現有的流式和非流式替代方案。
視頻聊天
支持視頻輸入和即時響應,增強交互體驗。
在視頻理解任務中表現出色。
多模態任務
多模態問答
結合文本、圖像、音頻和視頻信息回答問題。
在OmniBench等多模態任務中達到最先進的性能。
語音翻譯
支持語音輸入並翻譯為其他語言。
在CoVoST2等翻譯任務中表現優異。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase