Qwen2.5 - Omni - 7Bオープンソースマルチモーダルモデル - 音声とビデオを感知し、テキストと音声をストリーミング生成

ホーム

Qwen2.5 Omni 7B GGUF

Mungertによって開発

Qwen2.5-Omni-7Bは強力なマルチモーダルモデルで、テキスト、画像、音声、ビデオなどの多様なモーダル情報を感知し、ストリーミング方式でテキストと自然な音声応答を生成できます。

マルチモーダル融合

Transformers

英語オープンソースライセンス:その他 #マルチモーダルストリーミング応答 #リアルタイム音声・ビデオインタラクション #低ビット量子化最適化

ダウンロード数 979

リリース時間 : 6/11/2025

モデル概要

このモデルはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなどの多様なモーダルを感知し、ストリーミング方式でテキストと自然な音声応答を生成することを目的としています。

モデル特徴

全モーダル感知

テキスト、画像、音声、ビデオなどの多様なモーダル情報を感知できます。

ストリーミング応答

ストリーミング方式でテキストと自然な音声応答を生成し、リアルタイムインタラクションを実現します。

新しい量子化方法

規則により重要な層の量子化精度を向上させ、低ビット量子化とMOEモデルでより優れた性能を発揮します。

リアルタイム音声とビデオチャット

アーキテクチャ設計は完全なリアルタイムインタラクションを目的としており、ブロック入力と即時出力をサポートします。

クロスモーダルの強力な性能

マルチモーダルタスクで、同規模の単一モーダルモデルや閉ソースモデルよりも優れた性能を発揮します。

モデル能力

テキスト生成

画像分析

音声認識

ビデオ理解

音声理解

音声生成

マルチモーダルタスク処理

使用事例

リアルタイムインタラクション

リアルタイム音声チャット

リアルタイム音声入力と出力をサポートし、自然な会話を実現します。

音声生成において、多くの既存のストリーミングおよび非ストリーミング代替案よりも優れています。

ビデオチャット

ビデオ入力とリアルタイム応答をサポートし、インタラクション体験を向上させます。

ビデオ理解タスクで優れた性能を発揮します。

マルチモーダルタスク

マルチモーダル質問応答

テキスト、画像、音声、ビデオ情報を組み合わせて質問に答えます。

OmniBenchなどのマルチモーダルタスクで最先端の性能を達成します。

音声翻訳

音声入力をサポートし、他の言語に翻訳します。

CoVoST2などの翻訳タスクで優れた性能を発揮します。

🚀 Qwen2.5-Omni-7B GGUFモデル

Qwen2.5-Omni-7B GGUFモデルは、多様なモダリティを扱うことができるモデルです。このREADMEでは、モデルの生成詳細、量子化方法、適切なモデルフォーマットの選択方法などについて説明します。

🚀 クイックスタート

このセクションでは、Qwen2.5-Omni-7B GGUFモデルの基本的な使い方を説明します。

✨ 主な機能

モデル生成詳細

このモデルは、llama.cpp のコミット 1f63e75f を使用して生成されました。

量子化方法

標準のIMatrixでは、低ビット量子化やMOEモデルでの性能が十分ではないことがわかりました。そこで、Layer bumping with llama.cpp を参照して、llama.cppの --tensor-type を使用して選択したレイヤーのビット数を上げる方法を試しています。これにより、モデルファイルのサイズは大きくなりますが、与えられたモデルサイズに対する精度が向上します。

モデルフォーマットの選択

モデルフォーマットの選択は、ハードウェア能力 と メモリ制限 に依存します。以下に、いくつかのモデルフォーマットとその特徴を示します。

BF16 (Brain Float 16)

16ビット浮動小数点数形式で、高速な計算と良好な精度を両立します。
FP32と同様のダイナミックレンジを持ち、メモリ使用量が少ないです。
ハードウェアがBF16アクセラレーションをサポートしている場合に推奨されます。

使用する場合：

ハードウェアがネイティブのBF16サポートを持っている場合（例：新しいGPU、TPU）。
メモリを節約しながら、より高い精度が必要な場合。
モデルを別のフォーマットに再量子化する予定の場合。

避ける場合：

ハードウェアがBF16をサポートしていない場合（FP32にフォールバックし、低速になる可能性があります）。
BF16最適化を持たない古いデバイスとの互換性が必要な場合。

F16 (Float 16)

16ビット浮動小数点数形式で、BF16よりも広くサポートされています。
多くのGPUや一部のCPUで動作します。
BF16よりも若干数値精度が低いですが、推論には一般的に十分です。

使用する場合：

ハードウェアがFP16をサポートしているが、BF16をサポートしていない場合。
速度、メモリ使用量、精度のバランスが必要な場合。
FP16計算に最適化されたGPUや他のデバイスで実行する場合。

避ける場合：

デバイスがネイティブのFP16サポートを持っていない場合（予想よりも低速になる可能性があります）。
メモリ制限がある場合。

ハイブリッド精度モデル (例: `bf16_q8_0`, `f16_q4_K`)

重要でないレイヤーを量子化し、キーレイヤーを完全精度で保持することで、メモリ効率と精度のバランスを取ります。
例えば、bf16_q8_0 は、完全精度のBF16コアレイヤーと量子化されたQ8_0の他のレイヤーを持ちます。

使用する場合：

量子化のみのモデルよりも高い精度が必要で、完全なBF16/F16をすべてのレイヤーに適用できない場合。
デバイスが混合精度推論をサポートしている場合。
制約のあるハードウェアでの本番グレードのモデルのトレードオフを最適化したい場合。

避ける場合：

ターゲットデバイスが混合または完全精度のアクセラレーションをサポートしていない場合。
非常に厳しいメモリ制限の下で動作している場合（この場合は完全に量子化されたフォーマットを使用します）。

量子化モデル (Q4_K, Q6_K, Q8など)

モデルサイズとメモリ使用量を削減しながら、できるだけ精度を維持します。
低ビットモデル（Q4_K）は、最小限のメモリ使用量に最適ですが、精度が低い場合があります。
高ビットモデル（Q6_K、Q8_0）は、より高い精度を提供しますが、より多くのメモリを必要とします。

使用する場合：

CPUで推論を実行し、最適化されたモデルが必要な場合。
デバイスのVRAMが少なく、完全精度のモデルをロードできない場合。
合理的な精度を維持しながら、メモリフットプリントを削減したい場合。

避ける場合：

最大の精度が必要な場合（完全精度のモデルの方が適しています）。
ハードウェアに十分なVRAMがあり、より高精度のフォーマット（BF16/F16）を使用できる場合。

超低ビット量子化 (IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0)

非常に高いメモリ効率を実現するために最適化されており、低電力デバイスや大規模なデプロイメントでメモリが重要な制約となる場合に最適です。
IQ3_XS: 超低ビット量子化（3ビット）で、非常に高いメモリ効率を持ちます。
- 使用例: Q4_Kでさえ大きすぎる超低メモリデバイスに最適。
- トレードオフ: 高ビット量子化と比較して精度が低い。
IQ3_S: 最大のメモリ効率を実現するための小さなブロックサイズ。
- 使用例: IQ3_XSが過度に制限的な低メモリデバイスに最適。
IQ3_M: IQ3_Sよりも良好な精度を実現するための中サイズのブロックサイズ。
- 使用例: IQ3_Sが制限的すぎる低メモリデバイスに適しています。
Q4_K: ブロック単位の最適化により、より高い精度を実現する4ビット量子化。
- 使用例: Q6_Kが大きすぎる低メモリデバイスに最適。
Q4_0: ARMデバイス用に最適化された純粋な4ビット量子化。
- 使用例: ARMベースのデバイスまたは低メモリ環境に最適。

超超低ビット量子化 (IQ1_S IQ1_M IQ2_S IQ2_M IQ2_XS IQ2_XSS)

超超低ビット量子化（1、2ビット）で、極端なメモリ効率を持ちます。
- 使用例: 非常に制約のあるメモリにモデルを収める必要がある場合に最適。
- トレードオフ: 非常に低い精度。予想どおりに機能しない場合があります。使用前に十分にテストしてください。

モデルフォーマット選択のまとめ

モデルフォーマット	精度	メモリ使用量	デバイス要件	最適な使用例
BF16	非常に高い	高い	BF16対応のGPU/CPU	メモリを削減した高速推論
F16	高い	高い	FP16対応のGPU/CPU	BF16が利用できない場合の推論
Q4_K	中 - 低	低い	CPUまたは低VRAMデバイス	メモリ制約のある推論
Q6_K	中	中程度	より多くのメモリを持つCPU	量子化によるより高い精度
Q8_0	高い	中程度	中程度のVRAMを持つGPU/CPU	量子化モデルの中で最も高い精度
IQ3_XS	低い	非常に低い	超低メモリデバイス	最大のメモリ効率、低精度
IQ3_S	低い	非常に低い	低メモリデバイス	IQ3_XSよりも少し使いやすい
IQ3_M	低 - 中	低い	低メモリデバイス	IQ3_Sよりも良好な精度
Q4_0	低い	低い	ARMベース/組み込みデバイス	Llama.cppがARM推論用に自動的に最適化
*超超低ビット (IQ1/2_)**	非常に低い	非常に低い	小さなエッジ/組み込みデバイス	非常に制約のあるメモリにモデルを収める、低精度
ハイブリッド (例: `bf16_q8_0`)	中 - 高	中程度	混合精度対応のハードウェア	バランスの取れたパフォーマンスとメモリ、重要なレイヤーでのFPに近い精度

📚 ドキュメント

Qwen2.5-Omniの概要

Qwen2.5-Omniは、テキスト、画像、音声、ビデオなどの多様なモダリティを感知し、同時にテキストと自然な音声応答をストリーミング方式で生成するエンドツーエンドのマルチモーダルモデルです。

Qwen2.5-Omniのイメージ

主な特徴

オムニと革新的なアーキテクチャ: Thinker-Talkerアーキテクチャを提案し、テキスト、画像、音声、ビデオなどの多様なモダリティを感知し、同時にテキストと自然な音声応答をストリーミング方式で生成するエンドツーエンドのマルチモーダルモデルです。また、TMRoPE (Time-aligned Multimodal RoPE) という新しい位置埋め込みを提案し、ビデオ入力のタイムスタンプを音声と同期させます。
リアルタイムの音声とビデオチャット: 完全にリアルタイムなインタラクションをサポートするアーキテクチャで、チャンク単位の入力と即時出力をサポートします。
自然で堅牢な音声生成: 多くの既存のストリーミングおよび非ストリーミングの代替手段を上回り、音声生成において優れた堅牢性と自然性を示します。
すべてのモダリティでの強力なパフォーマンス: 同じサイズの単一モダリティモデルと比較して、すべてのモダリティで優れたパフォーマンスを示します。Qwen2.5-Omniは、同じサイズのQwen2-Audioよりも音声能力が優れており、Qwen2.5-VL-7Bと同等のパフォーマンスを達成しています。
優れたエンドツーエンドの音声命令追従: Qwen2.5-Omniは、エンドツーエンドの音声命令追従において、テキスト入力と同等の効果を示しており、MMLUやGSM8Kなどのベンチマークで証明されています。

モデルアーキテクチャ

モデルアーキテクチャのイメージ

パフォーマンス

Qwen2.5-Omniの包括的な評価を行い、同じサイズの単一モダリティモデルやQwen2.5-VL-7B、Qwen2-Audio、Gemini-1.5-proなどの閉ソースモデルと比較して、すべてのモダリティで強力なパフォーマンスを示しています。OmniBenchなどの複数のモダリティの統合を必要とするタスクでは、最先端のパフォーマンスを達成しています。また、単一モダリティのタスクでは、音声認識（Common Voice）、翻訳（CoVoST2）、音声理解（MMAU）、画像推論（MMMU、MMStar）、ビデオ理解（MVBench）、音声生成（Seed-tts-evalおよび主観的な自然性）などの分野で優れています。

パフォーマンスのイメージ

マルチモーダリティ -> テキスト

データセット	モデル	パフォーマンス
OmniBench Speech \| Sound Event \| Music \| Avg	Gemini-1.5-Pro	42.67%\|42.26%\|46.23%\|42.91%
	MIO-Instruct	36.96%\|33.58%\|11.32%\|33.80%
	AnyGPT (7B)	17.77%\|20.75%\|13.21%\|18.04%
	video-SALMONN	34.11%\|31.70%\|56.60%\|35.64%
	UnifiedIO2-xlarge	39.56%\|36.98%\|29.25%\|38.00%
	UnifiedIO2-xxlarge	34.24%\|36.98%\|24.53%\|33.98%
	MiniCPM-o	-
	Baichuan-Omni-1.5	-
	Qwen2.5-Omni-3B	52.14%\|52.08%\|52.83%\|52.19%
	Qwen2.5-Omni-7B	55.25%\|60.00%\|52.83%\|56.13%

音声 -> テキスト

データセット	モデル	パフォーマンス
ASR
Librispeech dev-clean \| dev other \| test-clean \| test-other	SALMONN	-
	SpeechVerse	-
	Whisper-large-v3	-
	Llama-3-8B	-
	Llama-3-70B	-
	Seed-ASR-Multilingual	-
	MiniCPM-o	-
	MinMo	-
	Qwen-Audio	1.8
	Qwen2-Audio	1.3
	Qwen2.5-Omni-3B	2.0
	Qwen2.5-Omni-7B	1.6
Common Voice 15 en \| zh \| yue \| fr	Whisper-large-v3	9.3
	MinMo	7.9
	Qwen2-Audio	8.6
	Qwen2.5-Omni-3B	9.1
	Qwen2.5-Omni-7B	7.6
Fleurs zh \| en	Whisper-large-v3	7.7
	Seed-ASR-Multilingual	-
	Megrez-3B-Omni	10.8
	MiniCPM-o	4.4
	MinMo	3.0
	Qwen2-Audio	7.5
	Qwen2.5-Omni-3B	3.2
	Qwen2.5-Omni-7B	3.0
Wenetspeech test-net \| test-meeting	Seed-ASR-Chinese	4.7\|5.7
	Megrez-3B-Omni	-
	MiniCPM-o	6.9
	MinMo	6.8
	Qwen2.5-Omni-3B	6.3
	Qwen2.5-Omni-7B	5.9
Voxpopuli-V1.0-en	Llama-3-8B	6.2
	Llama-3-70B	5.7
	Qwen2.5-Omni-3B	6.6
	Qwen2.5-Omni-7B	5.8
S2TT
CoVoST2 en-de \| de-en \| en-zh \| zh-en	SALMONN	18.6
	SpeechLLaMA	-
	BLSP	14.1
	MiniCPM-o	-
	MinMo	-
	Qwen-Audio	25.1
	Qwen2-Audio	29.9
	Qwen2.5-Omni-3B	28.3
	Qwen2.5-Omni-7B	30.2
SER
Meld	WavLM-large	0.542
	MiniCPM-o	0.524
	Qwen-Audio	0.557
	Qwen2-Audio	0.553
	Qwen2.5-Omni-3B	0.558
	Qwen2.5-Omni-7B	0.570
VSC
VocalSound	CLAP	0.495
	Pengi	0.604
	Qwen-Audio	0.929
	Qwen2-Audio	0.939
	Qwen2.5-Omni-3B	0.936
	Qwen2.5-Omni-7B	0.939
Music
GiantSteps Tempo	Llark-7B	0.86
	Qwen2.5-Omni-3B	0.88