Qwen2.5-Omni-7B-AWQオープンソースマルチモーダルモデル - 多様な形式のコンテンツを感知し、音声とテキストによるレスポンスを実現

ホーム

Qwen2.5 Omni 7B AWQ

Qwenによって開発

Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、動画を含む複数のモダリティを認識し、ストリーミング方式でテキストと自然な音声応答を生成できます。

マルチモーダル融合

Transformers

英語オープンソースライセンス:その他 #エンドツーエンドマルチモーダル #リアルタイム音声生成 #低VRAM最適化

ダウンロード数 77

リリース時間 : 5/14/2025

モデル概要

Qwen2.5-Omniは全モダリティの認識と生成をサポートするマルチモーダルモデルで、テキスト、画像、音声、動画処理能力を備え、リアルタイムでテキストと音声応答を生成します。

モデル特徴

全モダリティ知覚と生成

テキスト、画像、音声、動画の複数モダリティの知覚と生成をサポート

リアルタイム音声・動画チャット

完全なリアルタイムインタラクション向けに設計され、チャンク入力と即時出力をサポート

自然音声生成

音声生成において卓越した堅牢性と自然さを発揮

クロスモーダル強力な性能

全てのモダリティで優れた性能を発揮し、音声能力は同規模モデルを凌駕

エンドツーエンド音声コマンド追従

エンドツーエンド音声コマンド追従においてテキスト入力と同等の性能を発揮

モデル能力

テキスト生成

画像分析

音声認識

音声合成

動画理解

マルチモーダルインタラクション

使用事例

インテリジェントアシスタント

マルチモーダル会話

音声、画像、テキストのマルチモーダルインタラクションをサポート

自然で流暢な会話体験を提供

コンテンツ生成

音声合成

テキストを自然な音声に変換

高品質な音声出力を生成

🚀 Qwen2.5-Omni-7B-AWQ

Qwen2.5-Omni-7B-AWQは、テキスト、画像、音声、ビデオなどの多様なモダリティを感知し、テキストと自然な音声応答をストリーミング方式で生成するエンドツーエンドのマルチモーダルモデルです。

🚀 クイックスタート

このモデルカードでは、GPUメモリが制限されたデバイスでのQwen2.5-Omni-7Bの操作性を向上させるための一連の機能強化について紹介します。主な最適化点は以下の通りです。

AWQを使用してThinkerの重みを4ビット量子化し、GPU VRAMの使用量を効果的に削減しました。
推論パイプラインを強化し、各モジュールのモデル重みを必要に応じてロードし、推論が完了したらCPUメモリにオフロードすることで、VRAMのピーク使用量が過大になるのを防ぎます。
token2wavモジュールを変換してストリーミング推論をサポートするようにし、過剰なGPUメモリの事前割り当てを回避します。
ODEソルバーを2次（RK4）から1次（Euler）方式に調整し、計算オーバーヘッドをさらに削減します。

これらの改善により、特にGPUメモリが少ないハードウェア構成（RTX3080、4080、5070など）でも、Qwen2.5-Omniが効率的に動作することが保証されます。

以下に、autoawqを使用してQwen2.5-Omni-7B-AWQを使用する簡単な例を示します。

pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview
pip install accelerate
pip install autoawq==0.2.9

git clone https://github.com/QwenLM/Qwen2.5-Omni.git

cd Qwen2.5-Omni/low-VRAM-mode/

CUDA_VISIBLE_DEVICES=0 python3 low_VRAM_demo_awq.py

APIを使用するような感覚で、さまざまなタイプのオーディオおよびビジュアル入力をより便利に扱うためのツールキットを提供しています。これには、base64、URL、およびインターリーブされたオーディオ、画像、ビデオが含まれます。以下のコマンドを使用してインストールでき、システムにffmpegがインストールされていることを確認してください。

# ビデオの読み込みを高速化するには、`[decord]`機能を使用することを強くお勧めします。
pip install qwen-omni-utils[decord] -U

Linuxを使用していない場合は、PyPIからdecordをインストールできない可能性があります。その場合は、pip install qwen-omni-utils -Uを使用すると、ビデオ処理にtorchvisionを使用するようにフォールバックします。ただし、ソースからdecordをインストールすることで、ビデオ読み込み時にdecordを使用することもできます。

パフォーマンスとGPUメモリ要件

以下の2つの表は、特定の評価ベンチマークにおけるQwen2.5-Omni-7B-AWQとQwen2.5-Omni-7Bのパフォーマンス比較とGPUメモリ消費量を示しています。データから、AWQモデルは同等のパフォーマンスを維持しながら、GPUメモリ要件を50％以上削減しており、より広範なデバイスで高性能なQwen2.5-Omni-7Bモデルを実行し、体験することができます。特筆すべきは、AWQバリアントは量子化技術とCPUオフロードメカニズムのため、ネイティブのQwen2.5-Omni-7Bモデルと比較して推論速度がわずかに遅いことです。

評価セット	タスク	指標	Qwen2.5-Omni-7B	Qwen2.5-Omni-7B-AWQ
LibriSpeech test-other	ASR	WER ⬇️	3.4	3.91
WenetSpeech test-net	ASR	WER ⬇️	5.9	6.31
Seed-TTS test-hard	TTS (Speaker: Chelsie)	WER ⬇️	8.7	8.88
MMLU-Pro	テキスト -> テキスト	正解率 ⬆️	47.0	45.66
OmniBench	音声 -> テキスト	正解率 ⬆️	56.13	54.64
VideoMME	マルチモーダル -> テキスト	正解率 ⬆️	72.4	72.0

モデル	精度	15(s) ビデオ	30(s) ビデオ	60(s) ビデオ
Qwen-Omni-7B	FP32	93.56 GB	推奨しない	推奨しない
Qwen-Omni-7B	BF16	31.11 GB	41.85 GB	60.19 GB
Qwen-Omni-7B	AWQ	11.77 GB	17.84 GB	30.31 GB

✨ 主な機能

概要

導入

Qwen2.5-Omniは、テキスト、画像、音声、ビデオなどの多様なモダリティを感知し、同時にテキストと自然な音声応答をストリーミング方式で生成するように設計されたエンドツーエンドのマルチモーダルモデルです。

主要な特徴

オムニモーダルで斬新なアーキテクチャ：エンドツーエンドのマルチモーダルモデルであるThinker-Talkerアーキテクチャを提案しました。これは、テキスト、画像、音声、ビデオなどの多様なモダリティを感知し、同時にテキストと自然な音声応答をストリーミング方式で生成するように設計されています。また、ビデオ入力のタイムスタンプを音声と同期させるために、TMRoPE（Time-aligned Multimodal RoPE）という新しい位置埋め込みを提案しました。
リアルタイムの音声とビデオチャット：完全にリアルタイムなインタラクションを目的としたアーキテクチャで、チャンク入力と即時出力をサポートしています。
自然で堅牢な音声生成：多くの既存のストリーミングおよび非ストリーミングの代替手段を上回り、音声生成において卓越した堅牢性と自然さを示しています。
すべてのモダリティでの高いパフォーマンス：同サイズの単一モダリティモデルと比較したベンチマークで、すべてのモダリティで卓越したパフォーマンスを発揮しています。Qwen2.5-Omniは、同サイズのQwen2-Audioよりも音声機能が優れており、Qwen2.5-VL-7Bと同等のパフォーマンスを達成しています。
優れたエンドツーエンドの音声命令追従：Qwen2.5-Omniは、エンドツーエンドの音声命令追従において、テキスト入力と同等の有効性を示しており、MMLUやGSM8Kなどのベンチマークで証明されています。

モデルアーキテクチャ

📄 ライセンス

このプロジェクトは、Apache 2.0ライセンスの下で公開されています。

📚 引用

もしあなたの研究で当論文やコードが役立った場合、スターをつけてください⭐ また、引用もお願いします✍️

@article{Qwen2.5-Omni,
  title={Qwen2.5-Omni Technical Report},
  author={Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin},
  journal={arXiv preprint arXiv:2503.20215},
  year={2025}
}