OmniAudio-2.6B開源音頻語言模型 - 端側高效部署，支持文本音頻輸入

首頁

Omniaudio 2.6B

由NexaAIDev開發

全球最快、最高效的端側部署音頻語言模型，2.6B參數的多模態模型，可同時處理文本和音頻輸入。

音頻生成文本英語開源協議:Apache-2.0 #端側音頻處理 #低延遲對話 #離線語音問答

下載量 1,149

發布時間 : 12/11/2024

模型概述

OmniAudio-2.6B是一款高效的多模態模型，整合了Gemma-2-2b、Whisper turbo和定製投影模塊，能夠在邊緣設備上直接實現安全、響應迅速的音頻文本處理。

模型特點

端側高效部署

專為邊緣設備優化，實現最低延遲和資源開銷。

多模態統一架構

將ASR和LLM能力整合在單一架構中，避免傳統串聯方案的性能瓶頸。

卓越推理速度

在消費級硬件上實現5.5倍至10.3倍的性能提升。

模型能力

音頻文本轉換

語音對話

創意內容生成

錄音摘要

語音語調調整

使用案例

離線語音交互

無網絡環境查詢

處理無網絡環境下的語音查詢，如露營生火指導

提供實用指導

語音助手

情感支持對話

對用戶表達的情緒給予支持性回應

積極傾聽和回應

內容創作

語音轉詩歌

將語音提示轉化為創意作品

生成詩意回覆

辦公效率

會議記錄摘要

將冗長錄音轉化為簡潔摘要

可執行摘要

🚀 OmniAudio-2.6B

OmniAudio是全球最快且最高效的可用於設備端部署的音頻語言模型，這是一個擁有26億參數的多模態模型，能夠處理文本和音頻輸入。它集成了Gemma - 2 - 2b、Whisper turbo和一個自定義投影模塊這三個組件，可直接在邊緣設備上實現安全、響應迅速的音頻文本處理。

Example

與將自動語音識別（ASR）和大語言模型（LLM）串聯在一起的傳統方法不同，OmniAudio - 2.6B將這兩種能力統一在一個高效的架構中，實現了極低的延遲和資源開銷。

🚀 快速開始

快速鏈接

在我們的HuggingFace空間進行交互式演示
本地部署快速入門
在我們的博客中瞭解更多信息

反饋：在我們的Discord中發送關於模型的問題或建議。

演示

✨ 主要特性

消費級硬件上的性能基準

在2024款Mac Mini M4 Pro上，運行在🤗 Transformers上的Qwen2 - Audio - 7B - Instruct平均解碼速度為每秒6.38個令牌，而通過Nexa SDK運行的Omni - Audio - 2.6B在FP16 GGUF版本中達到每秒35.23個令牌，在Q4_K_M量化GGUF版本中達到每秒66個令牌，在消費級硬件上實現了5.5倍至10.3倍的更快性能。

應用場景

無網絡語音問答：處理離線語音查詢，例如“我在露營，沒有點火器怎麼生火？” 即使沒有網絡連接，OmniAudio也能提供實用的指導。
語音對話：進行關於個人經歷的對話。當你說“我今天工作不順”時，OmniAudio會進行支持性的交談並積極傾聽。
創意內容生成：將語音提示轉化為創意作品。詢問“寫一首關於秋葉的俳句”，並獲得受你語音輸入啟發的詩歌回應。
錄音總結：只需詢問“你能總結一下這個會議記錄嗎？” 即可將冗長的錄音轉換為簡潔、可操作的總結。
語音語調修改：將隨意的語音備忘錄轉換為專業的溝通內容。當你請求“你能讓這個語音備忘錄更專業嗎？” 時，OmniAudio會在保留核心信息的同時調整語調。

📦 安裝指南

如何在設備上使用

步驟1：安裝Nexa - SDK（本地設備推理框架）

🚀 安裝Nexa - SDK

⚠️ 重要提示

Nexa - SDK是一個開源的本地設備推理框架，支持文本生成、圖像生成、視覺語言模型（VLM）、音頻語言模型、語音轉文本（ASR）和文本轉語音（TTS）功能。可通過Python包或可執行安裝程序進行安裝。

步驟2：然後在終端中運行以下代碼

nexa run omniaudio -st

💻 OmniAudio - 2.6B q4_K_M版本需要1.30GB的RAM和1.60GB的存儲空間。

🔧 技術細節

訓練

我們通過三階段訓練流程開發了OmniAudio：

預訓練：初始階段使用MLS英語10k轉錄數據集專注於核心音頻文本對齊。我們引入了一個特殊的<|transcribe|>標記，使模型能夠區分轉錄和完成任務，確保在各種用例中保持一致的性能。
有監督微調（SFT）：我們使用從MLS英語10k轉錄中派生的合成數據集來增強模型的對話能力。此階段利用專有模型生成上下文合適的響應，創建豐富的音頻文本對，以實現有效的對話理解。
直接偏好優化（DPO）：最後階段使用GPT - 4o API作為參考來優化模型質量。該過程識別並糾正不準確的響應，同時保持語義對齊。我們還利用Gemma2的文本響應作為黃金標準，以確保在音頻和文本輸入方面都保持一致的質量。