Qwen2.5 Omni 7B

Qwenによって開発

Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティを認識し、ストリーミング方式でテキストや自然な音声レスポンスを生成できます。

マルチモーダル融合

Transformers

英語オープンソースライセンス:その他 #全モーダルインタラクション #リアルタイム音声・ビデオ #エンドツーエンドマルチモーダル

ダウンロード数 206.20k

リリース時間 : 3/22/2025

モデル概要

Qwen2.5-Omniはマルチモーダルモデルで、テキスト、画像、音声、ビデオの入出力をサポートし、リアルタイムインタラクション向けに設計されており、優れたクロスモーダル性能と自然な音声生成能力を備えています。

モデル特徴

全モーダルと新規アーキテクチャ

Thinker-Talkerアーキテクチャを採用し、テキスト、画像、音声、ビデオの入出力をサポートし、TMRoPE（時間整合型マルチモーダルRoPE）手法を提案してビデオと音声のタイムスタンプを同期します。

リアルタイム音声・ビデオチャット

完全なリアルタイムインタラクション向けに設計され、チャンク入力と即時出力をサポートします。

自然でロバストな音声生成

音声生成において卓越したロバスト性と自然さを示し、多くの既存のストリーミング/非ストリーミング代替案を凌駕します。

クロスモーダルの強力な性能

全てのモダリティで優れた性能を発揮し、同規模のシングルモーダルモデルに匹敵あるいは超越します。

エンドツーエンド音声コマンド追従

エンドツーエンド音声コマンド追従においてテキスト入力と同等の性能を示し、複雑なタスクでの実用性を検証しました。

モデル能力

テキスト生成

画像分析

音声認識

音声合成

ビデオ理解

マルチモーダル統合

使用事例

リアルタイムインタラクション

リアルタイム音声チャット

ストリーミング音声入力と即時テキスト/音声レスポンスをサポートし、リアルタイム会話シナリオに適しています。

自然でロバストな音声生成効果。

ビデオチャット

ビデオ入力とリアルタイム分析をサポートし、テキストや音声レスポンスを生成します。

ビデオと音声のタイムスタンプを同期し、インタラクション体験を向上させます。

マルチモーダルタスク

音声理解

音声認識、翻訳、音声イベント検出などのタスクをサポートします。

Common Voice、Fleursなどのデータセットで優れた性能を示します。

画像推論

画像内容理解と推論タスクをサポートします。

MMMU、MMStarなどのベンチマークで優れた性能を示します。

license: other license_name: apache-2.0 license_link: https://huggingface.co/Qwen/Qwen2.5-Omni-7B/blob/main/LICENSE language:

en tags:
multimodal library_name: transformers pipeline_tag: any-to-any

Qwen2.5-Omni

概要

紹介

Qwen2.5-Omniは、テキスト、画像、音声、動画など多様なモダリティを認識し、同時にストリーミング方式でテキストと自然な音声応答を生成するエンドツーエンドのマルチモーダルモデルです。

主な特徴

オムニかつ革新的なアーキテクチャ: Thinker-Talkerアーキテクチャを提案し、テキスト、画像、音声、動画など多様なモダリティを認識し、同時にストリーミング方式でテキストと自然な音声応答を生成します。動画入力と音声のタイムスタンプを同期させるために、TMRoPE（Time-aligned Multimodal RoPE）という新しい位置埋め込みを提案しています。
リアルタイム音声・動画チャット: 完全なリアルタイムインタラクションをサポートするアーキテクチャで、チャンク入力と即時出力に対応しています。
自然で堅牢な音声生成: 既存のストリーミングおよび非ストリーミング方式を凌駕し、音声生成において優れた堅牢性と自然さを実現しています。
全モダリティでの強力な性能: 同規模の単一モダリティモデルと比較して、すべてのモダリティで卓越した性能を示しています。Qwen2.5-Omniは、同規模のQwen2-Audioを音声能力で上回り、Qwen2.5-VL-7Bと同等の性能を達成しています。
優れたエンドツーエンド音声指示追従: Qwen2.5-Omniは、MMLUやGSM8Kなどのベンチマークで示されるように、テキスト入力と同等の効果を持つエンドツーエンド音声指示追従の性能を示しています。

モデルアーキテクチャ

性能

Qwen2.5-Omniの包括的な評価を行い、同規模の単一モダリティモデルやQwen2.5-VL-7B、Qwen2-Audio、Gemini-1.5-proなどのクローズドソースモデルと比較して、すべてのモダリティで強力な性能を示しています。OmniBenchのような複数モダリティの統合を必要とするタスクでは、Qwen2.5-Omniは最先端の性能を達成しています。さらに、単一モダリティタスクにおいても、音声認識（Common Voice）、翻訳（CoVoST2）、音声理解（MMAU）、画像推論（MMMU、MMStar）、動画理解（MVBench）、音声生成（Seed-tts-evalおよび主観的自然さ）などの領域で優れています。

マルチモダリティ -> テキスト

データセット	モデル	性能
OmniBench 音声 \| 音響イベント \| 音楽 \| 平均	Gemini-1.5-Pro	42.67%\|42.26%\|46.23%\|42.91%
	MIO-Instruct	36.96%\|33.58%\|11.32%\|33.80%
	AnyGPT (7B)	17.77%\|20.75%\|13.21%\|18.04%
	video-SALMONN	34.11%\|31.70%\|56.60%\|35.64%
	UnifiedIO2-xlarge	39.56%\|36.98%\|29.25%\|38.00%
	UnifiedIO2-xxlarge	34.24%\|36.98%\|24.53%\|33.98%
	MiniCPM-o	-\|-\|-\|40.50%
	Baichuan-Omni-1.5	-\|-\|-\|42.90%
	Qwen2.5-Omni-3B	52.14%\|52.08%\|52.83%\|52.19%
	Qwen2.5-Omni-7B	55.25%\|60.00%\|52.83%\|56.13%

音声 -> テキスト

データセット	モデル	性能
ASR
Librispeech dev-clean \| dev other \| test-clean \| test-other	SALMONN	-\|-\|2.1\|4.9
	SpeechVerse	-\|-\|2.1\|4.4
	Whisper-large-v3	-\|-\|1.8\|3.6
	Llama-3-8B	-\|-\|-\|3.4
	Llama-3-70B	-\|-\|-\|3.1
	Seed-ASR-Multilingual	-\|-\|1.6\|2.8
	MiniCPM-o	-\|-\|1.7\|-
	MinMo	-\|-\|1.7\|3.9
	Qwen-Audio	1.8\|4.0\|2.0\|4.2
	Qwen2-Audio	1.3\|3.4\|1.6\|3.6
	Qwen2.5-Omni-3B	2.0\|4.1\|2.2\|4.5
	Qwen2.5-Omni-7B	1.6\|3.5\|1.8\|3.4
Common Voice 15 en \| zh \| yue \| fr	Whisper-large-v3	9.3\|12.8\|10.9\|10.8
	MinMo	7.9\|6.3\|6.4\|8.5
	Qwen2-Audio	8.6\|6.9\|5.9\|9.6
	Qwen2.5-Omni-3B	9.1\|6.0\|11.6\|9.6
	Qwen2.5-Omni-7B	7.6\|5.2\|7.3\|7.5
Fleurs zh \| en	Whisper-large-v3	7.7\|4.1
	Seed-ASR-Multilingual	-\|3.4
	Megrez-3B-Omni	10.8\|-
	MiniCPM-o	4.4\|-
	MinMo	3.0\|3.8
	Qwen2-Audio	7.5\|-
	Qwen2.5-Omni-3B	3.2\|5.4
	Qwen2.5-Omni-7B	3.0\|4.1
Wenetspeech test-net \| test-meeting	Seed-ASR-Chinese	4.7\|5.7
	Megrez-3B-Omni	-\|16.4
	MiniCPM-o	6.9\|-
	MinMo	6.8\|7.4
	Qwen2.5-Omni-3B	6.3\|8.1
	Qwen2.5-Omni-7B	5.9\|7.7
Voxpopuli-V1.0-en	Llama-3-8B	6.2
	Llama-3-70B	5.7
	Qwen2.5-Omni-3B	6.6
	Qwen2.5-Omni-7B	5.8
S2TT
CoVoST2 en-de \| de-en \| en-zh \| zh-en	SALMONN	18.6\|-\|33.1\|-
	SpeechLLaMA	-\|27.1\|-\|12.3
	BLSP	14.1\|-\|-\|-
	MiniCPM-o	-\|-\|48.2\|27.2
	MinMo	-\|39.9\|46.7\|26.0
	Qwen-Audio	25.1\|33.9\|41.5\|15.7
	Qwen2-Audio	29.9\|35.2\|45.2\|24.4
	Qwen2.5-Omni-3B	28.3\|38.1\|41.4\|26.6
	Qwen2.5-Omni-7B	30.2\|37.7\|41.4\|29.4
SER
Meld	WavLM-large	0.542
	MiniCPM-o	0.524
	Qwen-Audio	0.557
	Qwen2-Audio	0.553
	Qwen2.5-Omni-3B	0.558
	Qwen2.5-Omni-7B	0.570
VSC
VocalSound	CLAP	0.495
	Pengi	0.604
	Qwen-Audio	0.929
	Qwen2-Audio	0.939
	Qwen2.5-Omni-3B	0.936
	Qwen2.5-Omni-7B	0.939
音楽
GiantSteps Tempo	Llark-7B	0.86
	Qwen2.5-Omni-3B	0.88
	Qwen2.5-Omni-7B	0.88
MusicCaps	LP-MusicCaps	0.291\|0.149\|0.089\|0.061\|0.129\|0.130
	Qwen2.5-Omni-3B	0.325\|0.163\|0.093\|0.057\|0.132\|0.229
	Qwen2.5-Omni-7B	0.328\|0.162\|0.090\|0.055\|0.127\|0.225
音声推論
MMAU 音響 \| 音楽 \| 音声 \| 平均	Gemini-Pro-V1.5	56.75\|49.40\|58.55\|54.90
	Qwen2-Audio	54.95\|50.98\|42.04\|49.20
	Qwen2.5-Omni-3B	70.27\|60.48\|59.16\|63.30
	Qwen2.5-Omni-7B	67.87\|69.16\|59.76\|65.60
音声チャット
VoiceBench AlpacaEval \| CommonEval \| SD-QA \| MMSU	Ultravox-v0.4.1-LLaMA-3.1-8B	4.55\|3.90\|53.35\|47.17
	MERaLiON	4.50\|3.77\|55.06\|34.95
	Megrez-3B-Omni	3.50\|2.95\|25.95\|27.03
	Lyra-Base	3.85\|3.50\|38.25\|49.74
	MiniCPM-o	4.42\|4.15\|50.72\|54.78
	Baichuan-Omni-1.5	4.50\|4.05\|43.40\|57.25
	Qwen2-Audio	3.74\|3.43\|35.71\|35.72
	Qwen2.5-Omni-3B	4.32\|4.00\|49.37\|50.23
	Qwen2.5-Omni-7B	4.49\|3.93\|55.71\|61.32
VoiceBench OpenBookQA \| IFEval \| AdvBench \| 平均	Ultravox-v0.4.1-LLaMA-3.1-8B	65.27\|66.88\|98.46\|71.45
	MERaLiON	27.23\|62.93\|94.81\|62.91
	Megrez-3B-Omni	28.35\|25.71\|87.69\|46.25
	Lyra-Base	72.75\|36.28\|59.62\|57.66
	MiniCPM-o	78.02\|49.25\|97.69\|71.69
	Baichuan-Omni-1.5	74.51\|54.54\|97.31\|71.14
	Qwen2-Audio	49.45\|26.33\|96.73\|55.35
	Qwen2.5-Omni-3B	74.73\|42.10\|98.85\|68.81
	Qwen2.5-Omni-7B	81.10\|52.87\|99.42\|74.12

画像 -> テキスト

データセット	Qwen2.5-Omni-7B	Qwen2.5-Omni-3B	その他最高	Qwen2.5-VL-7B	GPT-4o-mini
MMMU_val	59.2	53.1	53.9	58.6	60.0
MMMU-Pro_overall	36.6	29.7	-	38.3	37.6
MathVista_testmini	67.9	59.4	71.9	68.2	52.5
MathVision_full	25.0	20.8	23.1	25.1	-
MMBench-V1.1-EN_test	81.8	77.8	80.5	82.6	76.0
MMVet_turbo	66.8	62.1	67.5	67.1	66.9
MMStar	64.0	55.7	64.0	63.9	54.8
MME_sum	2340	2117	2372	2347	2003
MuirBench	59.2	48.0	-	59.2	-
CRPE_relation	76.5	73.7	-	76.4	-
RealWorldQA_avg	70.3	62.6	71.9	68.5	-
MME-RealWorld_en	61.6	55.6	-	57.4	-
MM-MT-Bench	6.0	5.0	-	6.3	-
AI2D	83.2	79.5	85.8	83.9	-
TextVQA_val	84.4	79.8	83.2	84.9	-
DocVQA_test	95.2	93.3	93.5	95.7	-
ChartQA_{test Avg}	85.3	82.8	84.9	87.3	-
OCRBench_V2_en	57.8	51.7	-	56.3	-

データセット	Qwen2.5-Omni-7B	Qwen2.5-Omni-3B	Qwen2.5-VL-7B	Grounding DINO	Gemini 1.5 Pro
Refcoco_val	90.5	88.7	90.0	90.6	73.2
Refcoco_textA	93.5	91.8	92.5	93.2	72.9
Refcoco_textB	86.6	84.0	85.4	88.2	74.6
Refcoco+_val	85.4	81.1	84.2	88.2	62.5
Refcoco+_textA	91.0	87.5	89.1	89.0	63.9
Refcoco+_text