Qwen2.5 Omni 3B

Qwenによって開発

Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティ情報を認識し、ストリーミング方式でテキストと自然な音声応答を同期生成できます。

マルチモーダル融合

Transformers

英語オープンソースライセンス:その他 #エンドツーエンドマルチモーダル #リアルタイム音声ビデオ #クロスモーダル統合

ダウンロード数 48.07k

リリース時間 : 4/30/2025

モデル概要

Qwen2.5-Omniは革新的なマルチモーダルモデルで、Thinker-Talkerアーキテクチャを採用し、リアルタイム音声ビデオインタラクションと自然な音声生成をサポートし、クロスモーダルタスクで優れた性能を発揮します。

モデル特徴

革新的なアーキテクチャ設計

Thinker-Talkerアーキテクチャを提案し、エンドツーエンドマルチモーダル認識と生成を実現。革新的にTMRoPE（時間整合マルチモーダル回転位置符号化）を導入し、ビデオと音声入力のタイムスタンプ同期を確保。

リアルタイム音声ビデオインタラクション

チャンク入力と即時出力をサポートする完全リアルタイムインタラクションアーキテクチャ。

自然で滑らかな音声生成

音声生成の自然さとロバスト性において、既存のストリーミング/非ストリーミングソリューションを凌駕。

クロスモーダルの強力な性能

同等規模のシングルモーダルモデルと比較して全面的にリード。音声能力は同サイズのQwen2-Audioを超え、視覚性能はQwen2.5-VL-7Bに匹敵。

卓越したエンドツーエンド音声コマンドフォロー

MMLU、GSM8Kなどのベンチマークテストにおいて、音声コマンドフォロー能力がテキスト入力と同等の効果を達成。

モデル能力

テキスト理解と生成

画像理解と分析

音声理解と生成

ビデオ理解と分析

マルチモーダル融合処理

リアルタイムストリーミングインタラクション

使用事例

インテリジェントアシスタント

マルチモーダルダイアログシステム

テキスト、音声、画像、ビデオのマルチモーダルインタラクションをサポート

より自然で滑らかな人間と機械のインタラクション体験を提供

コンテンツクリエーション

マルチメディアコンテンツ生成

マルチモーダル入力に基づいて一貫性のあるテキストと音声出力を生成

コンテンツクリエーションの効率と品質を向上

教育

マルチモーダル学習アシスタント

音声、画像、ビデオなど様々な方法で学習を支援

より豊かな学習体験を提供

license: other license_name: qwen-research license_link: LICENSE language:

en tags:
multimodal library_name: transformers pipeline_tag: any-to-any

Qwen2.5-Omni

概要

紹介

Qwen2.5-Omniは、テキスト、画像、音声、動画など多様なモダリティを認識し、同時にテキストと自然な音声応答をストリーミング方式で生成するエンドツーエンドのマルチモーダルモデルです。

主な特徴

オムニかつ革新的なアーキテクチャ: Thinker-Talkerアーキテクチャを提案し、テキスト、画像、音声、動画など多様なモダリティを認識し、同時にテキストと自然な音声応答をストリーミング方式で生成します。動画入力と音声のタイムスタンプを同期させるために、TMRoPE（Time-aligned Multimodal RoPE）という新しい位置埋め込みを提案しています。
リアルタイム音声・動画チャット: 完全なリアルタイムインタラクションをサポートするアーキテクチャで、チャンク入力と即時出力に対応しています。
自然で堅牢な音声生成: 既存のストリーミングおよび非ストリーミングの代替モデルを凌駕し、音声生成において優れた堅牢性と自然さを実証しています。
全モダリティでの強力な性能: 同サイズの単一モダリティモデルと比較して、すべてのモダリティで卓越した性能を示しています。Qwen2.5-Omniは、同サイズのQwen2-Audioを音声能力で上回り、Qwen2.5-VL-7Bと同等の性能を達成しています。
優れたエンドツーエンド音声指示追従: Qwen2.5-Omniは、MMLUやGSM8Kなどのベンチマークで示されるように、テキスト入力と同等の効果を持つエンドツーエンド音声指示追従の性能を示しています。

モデルアーキテクチャ

性能

Qwen2.5-Omniの包括的な評価を行い、同サイズの単一モダリティモデルやQwen2.5-VL-7B、Qwen2-Audio、Gemini-1.5-proなどのクローズドソースモデルと比較して、すべてのモダリティで強力な性能を示しています。OmniBenchのような複数のモダリティを統合するタスクでは、Qwen2.5-Omniは最先端の性能を達成しています。さらに、単一モダリティタスクでは、音声認識（Common Voice）、翻訳（CoVoST2）、音声理解（MMAU）、画像推論（MMMU、MMStar）、動画理解（MVBench）、音声生成（Seed-tts-evalおよび主観的自然さ）などの領域で優れています。

マルチモダリティ -> テキスト

データセット	モデル	性能
OmniBench 音声 \| 音響イベント \| 音楽 \| 平均	Gemini-1.5-Pro	42.67%\|42.26%\|46.23%\|42.91%
	MIO-Instruct	36.96%\|33.58%\|11.32%\|33.80%
	AnyGPT (7B)	17.77%\|20.75%\|13.21%\|18.04%
	video-SALMONN	34.11%\|31.70%\|56.60%\|35.64%
	UnifiedIO2-xlarge	39.56%\|36.98%\|29.25%\|38.00%
	UnifiedIO2-xxlarge	34.24%\|36.98%\|24.53%\|33.98%
	MiniCPM-o	-\|-\|-\|40.50%
	Baichuan-Omni-1.5	-\|-\|-\|42.90%
	Qwen2.5-Omni-3B	52.14%\|52.08%\|52.83%\|52.19%
	Qwen2.5-Omni-7B	55.25%\|60.00%\|52.83%\|56.13%

音声 -> テキスト

データセット	モデル	性能
ASR
Librispeech dev-clean \| dev other \| test-clean \| test-other	SALMONN	-\|-\|2.1\|4.9
	SpeechVerse	-\|-\|2.1\|4.4
	Whisper-large-v3	-\|-\|1.8\|3.6
	Llama-3-8B	-\|-\|-\|3.4
	Llama-3-70B	-\|-\|-\|3.1
	Seed-ASR-Multilingual	-\|-\|1.6\|2.8
	MiniCPM-o	-\|-\|1.7\|-
	MinMo	-\|-\|1.7\|3.9
	Qwen-Audio	1.8\|4.0\|2.0\|4.2
	Qwen2-Audio	1.3\|3.4\|1.6\|3.6
	Qwen2.5-Omni-3B	2.0\|4.1\|2.2\|4.5
	Qwen2.5-Omni-7B	1.6\|3.5\|1.8\|3.4
Common Voice 15 en \| zh \| yue \| fr	Whisper-large-v3	9.3\|12.8\|10.9\|10.8
	MinMo	7.9\|6.3\|6.4\|8.5
	Qwen2-Audio	8.6\|6.9\|5.9\|9.6
	Qwen2.5-Omni-3B	9.1\|6.0\|11.6\|9.6
	Qwen2.5-Omni-7B	7.6\|5.2\|7.3\|7.5
Fleurs zh \| en	Whisper-large-v3	7.7\|4.1
	Seed-ASR-Multilingual	-\|3.4
	Megrez-3B-Omni	10.8\|-
	MiniCPM-o	4.4\|-
	MinMo	3.0\|3.8
	Qwen2-Audio	7.5\|-
	Qwen2.5-Omni-3B	3.2\|5.4
	Qwen2.5-Omni-7B	3.0\|4.1
Wenetspeech test-net \| test-meeting	Seed-ASR-Chinese	4.7\|5.7
	Megrez-3B-Omni	-\|16.4
	MiniCPM-o	6.9\|-
	MinMo	6.8\|7.4
	Qwen2.5-Omni-3B	6.3\|8.1
	Qwen2.5-Omni-7B	5.9\|7.7
Voxpopuli-V1.0-en	Llama-3-8B	6.2
	Llama-3-70B	5.7
	Qwen2.5-Omni-3B	6.6
	Qwen2.5-Omni-7B	5.8
S2TT
CoVoST2 en-de \| de-en \| en-zh \| zh-en	SALMONN	18.6\|-\|33.1\|-
	SpeechLLaMA	-\|27.1\|-\|12.3
	BLSP	14.1\|-\|-\|-
	MiniCPM-o	-\|-\|48.2\|27.2
	MinMo	-\|39.9\|46.7\|26.0
	Qwen-Audio	25.1\|33.9\|41.5\|15.7
	Qwen2-Audio	29.9\|35.2\|45.2\|24.4
	Qwen2.5-Omni-3B	28.3\|38.1\|41.4\|26.6
	Qwen2.5-Omni-7B	30.2\|37.7\|41.4\|29.4
SER
Meld	WavLM-large	0.542
	MiniCPM-o	0.524
	Qwen-Audio	0.557
	Qwen2-Audio	0.553
	Qwen2.5-Omni-3B	0.558
	Qwen2.5-Omni-7B	0.570
VSC
VocalSound	CLAP	0.495
	Pengi	0.604
	Qwen-Audio	0.929
	Qwen2-Audio	0.939
	Qwen2.5-Omni-3B	0.936
	Qwen2.5-Omni-7B	0.939
Music
GiantSteps Tempo	Llark-7B	0.86
	Qwen2.5-Omni-3B	0.88
	Qwen2.5-Omni-7B	0.88
MusicCaps	LP-MusicCaps	0.291\|0.149\|0.089\|0.061\|0.129\|0.130
	Qwen2.5-Omni-3B	0.325\|0.163\|0.093\|0.057\|0.132\|0.229
	Qwen2.5-Omni-7B	0.328\|0.162\|0.090\|0.055\|0.127\|0.225
音声推論
MMAU 音響 \| 音楽 \| 音声 \| 平均	Gemini-Pro-V1.5	56.75\|49.40\|58.55\|54.90
	Qwen2-Audio	54.95\|50.98\|42.04\|49.20
	Qwen2.5-Omni-3B	70.27\|60.48\|59.16\|63.30
	Qwen2.5-Omni-7B	67.87\|69.16\|59.76\|65.60
音声チャット
VoiceBench AlpacaEval \| CommonEval \| SD-QA \| MMSU	Ultravox-v0.4.1-LLaMA-3.1-8B	4.55\|3.90\|53.35\|47.17
	MERaLiON	4.50\|3.77\|55.06\|34.95
	Megrez-3B-Omni	3.50\|2.95\|25.95\|27.03
	Lyra-Base	3.85\|3.50\|38.25\|49.74
	MiniCPM-o	4.42\|4.15\|50.72\|54.78
	Baichuan-Omni-1.5	4.50\|4.05\|43.40\|57.25
	Qwen2-Audio	3.74\|3.43\|35.71\|35.72
	Qwen2.5-Omni-3B	4.32\|4.00\|49.37\|50.23
	Qwen2.5-Omni-7B	4.49\|3.93\|55.71\|61.32
VoiceBench OpenBookQA \| IFEval \| AdvBench \| 平均	Ultravox-v0.4.1-LLaMA-3.1-8B	65.27\|66.88\|98.46\|71.45
	MERaLiON	27.23\|62.93\|94.81\|62.91
	Megrez-3B-Omni	28.35\|25.71\|87.69\|46.25
	Lyra-Base	72.75\|36.28\|59.62\|57.66
	MiniCPM-o	78.02\|49.25\|97.69\|71.69
	Baichuan-Omni-1.5	74.51\|54.54\|97.31\|71.14
	Qwen2-Audio	49.45\|26.33\|96.73\|55.35
	Qwen2.5-Omni-3B	74.73\|42.10\|98.85\|68.81
	Qwen2.5-Omni-7B	81.10\|52.87\|99.42\|74.12

画像 -> テキスト

データセット	Qwen2.5-Omni-7B	Qwen2.5-Omni-3B	その他最高	Qwen2.5-VL-7B	GPT-4o-mini
MMMU_val	59.2	53.1	53.9	58.6	60.0
MMMU-Pro_overall	36.6	29.7	-	38.3	37.6
MathVista_testmini	67.9	59.4	71.9	68.2	52.5
MathVision_full	25.0	20.8	23.1	25.1	-
MMBench-V1.1-EN_test	81.8	77.8	80.5	82.6	76.0
MMVet_turbo	66.8	62.1	67.5	67.1	66.9
MMStar	64.0	55.7	64.0	63.9	54.8
MME_sum	2340	2117	2372	2347	2003
MuirBench	59.2	48.0	-	59.2	-
CRPE_relation	76.5	73.7	-	76.4	-
RealWorldQA_avg	70.3	62.6	71.9	68.5	-
MME-RealWorld_en	61.6	55.6	-	57.4	-
MM-MT-Bench	6.0	5.0	-	6.3	-
AI2D	83.2	79.5	85.8	83.9	-
TextVQA_val	84.4	79.8	83.2	84.9	-
DocVQA_test	95.2	93.3	93.5	95.7	-
ChartQA_{test Avg}	85.3	82.8	84.9	87.3	-
OCRBench_V2_en	57.8	51.7	-	56.3	-

データセット	Qwen2.5-Omni-7B	Qwen2.5-Omni-3B	Qwen2.5-VL-7B	Grounding DINO	Gemini 1.5 Pro
Refcoco_val	90.5	88.7	90.0	90.6	73.2
Refcoco_textA	93.5	91.8	92.5	93.2	72.9
Refcoco_textB	86.6	84.0	85.4	88.2	74.6
Refcoco+_val	85.4	81.1	84.2	88.2	62.5
Refcoco+_textA	91.0	87.5	89.1	89.0	63.9
Refcoco+_textB	79.3	73.2	76.