X2Iオープンソースマルチモーダル変換モデル - テキスト、音声、ビデオなどを無料で高品質な画像に変換

X2I

OPPOerによって開発

X2Iはマルチモーダル拡散Transformerモデルで、テキスト、画像、動画、音声、音声など複数の入力モダリティを画像出力に変換できます。

ダウンロード数 435

リリース時間 : 3/15/2025

モデル概要

X2Iはアテンション蒸留技術によりマルチモーダル理解能力を拡散Transformerに統合し、テキスト、画像、動画、音声、音声など様々な入力モダリティから画像を生成できます。

マルチモーダル入力サポート

テキスト、画像、動画、音声、音声など複数の入力モダリティを画像に変換することをサポート

アテンション蒸留技術

アテンション蒸留によりマルチモーダル理解能力を拡散Transformerにシームレスに統合

多言語サポート

複数言語のテキスト入力をサポート

テキストから画像生成

複数画像から画像変換

動画から画像変換

テキスト画像から画像変換

音声から画像変換

クリエイティブデザイン

コンセプトアート生成

テキスト記述に基づきコンセプトアート作品を生成

高品質なコンセプトアート画像を迅速に生成

製品設計の可視化

製品説明を可視化デザインに変換

製品設計プロセスを加速

マルチメディア処理

動画キーフレーム抽出

動画からキーフレームを抽出しアートスタイルの画像に変換

アートスタイルの動画要約を生成

音声可視化

音声を視覚表現に変換

ミュージックビジュアライゼーション作品を創作

属性	详情
ベースモデル	black-forest-labs/FLUX.1-dev、OpenGVLab/InternVL2_5-1B、OpenGVLab/InternVL2_5-4B、openbmb/MiniCPM-o-2_6、Qwen/Qwen2.5-7B-Instruct、Qwen/Qwen2.5-3B-Instruct
言語	多言語
ライセンス	apache-2.0
ライブラリ名	diffusers
パイプラインタグ	any-to-image
タグ	flux.1、minicpm-o、qwenvl、internvl、text-to-image、multi-image-to-image、video-to-image、text_image-to-image、audio-to-image、speech-to-image