Mini-omni2開源多模態模型 - 支持圖像、音頻、文本輸入及語音對話互動

首頁

Mini Omni2

由gpt-omni開發

Mini-Omni2是一款全交互式多模態模型，能理解圖像、音頻和文本輸入，並與用戶進行端到端的語音對話。

多模態融合開源協議:MIT #即時語音對話 #多模態交互 #端到端語音輸出

下載量 192

發布時間 : 10/15/2024

模型概述

Mini-Omni2具備即時語音輸出、全能多模態理解以及靈活的說話時可中斷交互能力，支持圖像、語音和文本的多模態輸入與輸出。

模型特點

多模態交互

能夠理解圖像、語音和文本輸入，執行綜合任務。

即時語音對話

無需額外ASR或TTS模型，支持端到端的語音對話。

說話時可中斷

支持靈活的交互中斷機制，提升對話流暢度。

模型能力

圖像理解

語音識別

文本生成

即時語音輸出

多模態任務處理

使用案例

智能助手

多模態對話助手

通過語音、圖像和文本與用戶進行自然交互。

提供更自然的用戶體驗，支持多種輸入方式。

教育

語言學習助手

通過語音交互幫助用戶學習英語。

提供即時語音反饋，增強學習效果。

🚀 Mini-Omni2

Mini-Omni2是一個全交互模型，它能夠理解圖像、音頻和文本輸入，並與用戶進行端到端的語音對話。該模型具有即時語音輸出、全能力多模態理解以及在說話時帶有中斷機制的靈活交互能力。

🚀 快速開始

安裝

創建一個新的conda環境並安裝所需的包：

conda create -n omni python=3.10
conda activate omni

git clone https://github.com/gpt-omni/mini-omni2.git
cd mini-omni2
pip install -r requirements.txt

交互演示

啟動服務器 注意：在運行Streamlit或Gradio演示之前，你需要啟動服務器，並將API_URL設置為服務器地址。

sudo apt-get install ffmpeg
conda activate omni
cd mini-omni2
python3 server.py --ip '0.0.0.0' --port 60808

運行Streamlit演示 注意：你需要在本地安裝PyAudio後運行Streamlit。

pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

本地測試

conda activate omni
cd mini-omni2
# 測試運行預設的音頻樣本和問題
python inference_vision.py

✨ 主要特性

✅ 多模態交互：具備理解圖像、語音和文本的能力，就像GPT - 4o一樣。

✅ 即時語音對話能力：無需額外的ASR或TTS模型，就像Mini - Omni一樣。

📦 模型更新

2024.10：發佈模型、技術報告、推理和聊天演示代碼。

💻 使用示例

演示

注意：需要先取消靜音。 https://github.com/user-attachments/assets/ad97ca7f-f8b4-40c3-a7e8-fa54b4edf155

📚 詳細文檔

Mini-Omni2概述

1. 多模態建模

我們使用多個序列作為模型的輸入和輸出。在輸入部分，我們將拼接圖像、音頻和文本特徵以執行一系列綜合任務，如下圖所示。在輸出部分，我們使用文本引導的延遲並行輸出來生成即時語音響應。

2. 多階段訓練

我們提出了一種高效的對齊訓練方法，並在三階段訓練中分別進行編碼器自適應、模態對齊和多模態微調。

常見問題解答

1. 該模型是否支持其他語言？

不，該模型僅在英語上進行訓練。然而，由於我們使用Whisper作為音頻編碼器，該模型可以理解Whisper支持的其他語言（如中文），但輸出僅為英語。

2. 錯誤：無法在本地瀏覽器中運行Streamlit，使用遠程Streamlit服務器

你需要在本地安裝PyAudio後運行Streamlit。

🔧 技術細節

本項目參考了以下開源項目：

Qwen2 作為大語言模型骨幹。
litGPT 用於訓練和推理。
whisper 用於音頻編碼。
clip 用於圖像編碼。
snac 用於音頻解碼。
CosyVoice 用於生成合成語音。
OpenOrca 和 MOSS 用於對齊。

📄 許可證

本項目採用MIT許可證。

🤗 Hugging Face | 📖 Github | 📑 技術報告

待辦事項

[ ] 更新中斷機制

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫