Mini-omni2オープンソースマルチモーダルモデル - 画像、音声、テキスト入力と音声対話インタラクションに対応

ホーム

Mini Omni2

gpt-omniによって開発

Mini-Omni2は全インタラクティブなマルチモーダルモデルで、画像、音声、テキスト入力を理解し、ユーザーとエンドツーエンドの音声対話が可能です。

マルチモーダル融合オープンソースライセンス:MIT #リアルタイム音声対話 #マルチモーダルインタラクション #エンドツーエンド音声出力

ダウンロード数 192

リリース時間 : 10/15/2024

モデル概要

Mini-Omni2はリアルタイム音声出力、万能マルチモーダル理解、柔軟な発話中割り込み機能を備え、画像、音声、テキストのマルチモーダル入出力をサポートします。

モデル特徴

マルチモーダルインタラクション

画像、音声、テキスト入力を理解し、総合的なタスクを実行可能。

リアルタイム音声対話

追加のASRやTTSモデル不要で、エンドツーエンドの音声対話をサポート。

発話中に割り込み可能

柔軟なインタラクション中断メカニズムをサポートし、対話の流暢性を向上。

モデル能力

画像理解

音声認識

テキスト生成

リアルタイム音声出力

マルチモーダルタスク処理

使用事例

スマートアシスタント

マルチモーダル対話アシスタント

音声、画像、テキストを通じてユーザーと自然にインタラクション。

より自然なユーザー体験を提供し、複数の入力方式をサポート。

教育

言語学習アシスタント

音声インタラクションを通じてユーザーの英語学習を支援。

リアルタイム音声フィードバックを提供し、学習効果を向上。

🚀 Mini-Omni2

Mini-Omni2は、画像、音声、テキスト入力を理解し、ユーザーとエンドツーエンドの音声会話ができる「オムニインタラクティブ」モデルです。リアルタイム音声出力、オムニ対応のマルチモーダル理解、話し中の割り込み機構による柔軟なインタラクション能力を備えています。

🤗 Hugging Face | 📖 Github | 📑 Technical report

🚀 クイックスタート

インタラクティブデモ

サーバーを起動する

⚠️ 重要提示

ストリームリットまたはグラディオデモを実行する前に、API_URLをサーバーアドレスに設定してサーバーを起動する必要があります。

sudo apt-get install ffmpeg
conda activate omni
cd mini-omni2
python3 server.py --ip '0.0.0.0' --port 60808

ストリームリットデモを実行する

⚠️ 重要提示

PyAudioをインストールして、ストリームリットを「ローカルで」実行する必要があります。

pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

ローカルテスト

conda activate omni
cd mini-omni2
# 事前設定された音声サンプルと質問をテスト実行する
python inference_vision.py

✨ 主な機能

✅ マルチモーダルインタラクション：GPT-4oのように、画像、音声、テキストを理解する能力を備えています。

✅ リアルタイム音声対話能力：Mini-Omniのように、追加のASRまたはTTSモデルは必要ありません。

📦 インストール

新しいconda環境を作成し、必要なパッケージをインストールします。

conda create -n omni python=3.10
conda activate omni

git clone https://github.com/gpt-omni/mini-omni2.git
cd mini-omni2
pip install -r requirements.txt

📚 ドキュメント

更新情報

2024.10：モデル、技術レポート、推論およびチャットデモコードをリリースしました。

Mini-Omni2の概要

マルチモーダルモデリング

モデルの入力と出力に複数のシーケンスを使用します。入力部分では、画像、音声、テキストの特徴を連結して一連の包括的なタスクを実行します。出力部分では、テキストガイドの遅延並列出力を使用してリアルタイム音声応答を生成します。

多段階トレーニング

効率的なアラインメントトレーニング方法を提案し、3段階のトレーニングでそれぞれエンコーダー適応、モーダルアラインメント、マルチモーダルファインチューニングを行います。

よくある質問

1. モデルは他の言語をサポートしていますか？

いいえ、このモデルは英語でのみトレーニングされています。ただし、音声エンコーダーとしてwhisperを使用しているため、whisperがサポートする他の言語（中国語など）を理解することはできますが、出力は英語のみです。

2. エラー：リモートのストリームリットサーバーで、ローカルブラウザーでストリームリットを実行できません。

PyAudioをインストールして、ストリームリットを「ローカルで」起動する必要があります。

謝辞

Qwen2 をLLMのバックボーンとして使用しています。
litGPT をトレーニングと推論に使用しています。
whisper を音声エンコーディングに使用しています。
clip を画像エンコーディングに使用しています。
snac を音声デコーディングに使用しています。
CosyVoice を合成音声の生成に使用しています。
OpenOrca と MOSS をアラインメントに使用しています。

デモ

⚠️ 重要提示

最初にミュートを解除する必要があります。

https://github.com/user-attachments/assets/ad97ca7f-f8b4-40c3-a7e8-fa54b4edf155

今後の予定

[ ] 割り込み機構を更新する

📄 ライセンス

MITライセンス

Property	Details
Pipeline Tag	any-to-any
Library Name	mini-omni2

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご