X2I開源多模態轉換模型 - 免費將文本、音視頻等轉成高質量圖像

X2I

由OPPOer開發

X2I是一個多模態擴散Transformer模型，能夠將多種輸入模態（文本、圖像、視頻、音頻、語音）轉換為圖像輸出。

下載量 435

發布時間 : 3/15/2025

模型概述

X2I通過注意力蒸餾技術將多模態理解能力集成到擴散Transformer中，支持從文本、圖像、視頻、音頻和語音等多種輸入模態生成圖像。

多模態輸入支持

支持文本、圖像、視頻、音頻和語音等多種輸入模態轉換為圖像

注意力蒸餾技術

通過注意力蒸餾將多模態理解能力無縫集成到擴散Transformer中

多語言支持

支持多種語言的文本輸入

文本到圖像生成

多圖像到圖像轉換

視頻到圖像轉換

文本圖像到圖像轉換

音頻到圖像轉換

語音到圖像轉換

創意設計

概念藝術生成

根據文本描述生成概念藝術作品

快速生成高質量的概念藝術圖像

產品設計可視化

將產品描述轉換為可視化設計圖

加速產品設計流程

多媒體處理

視頻關鍵幀提取

從視頻中提取關鍵幀並轉換為藝術風格圖像

生成具有藝術風格的視頻摘要

音頻可視化

將音頻轉換為視覺表示

創建音樂可視化藝術作品

屬性	詳情
基礎模型	black-forest-labs/FLUX.1-dev、OpenGVLab/InternVL2_5-1B、OpenGVLab/InternVL2_5-4B、openbmb/MiniCPM-o-2_6、Qwen/Qwen2.5-7B-Instruct、Qwen/Qwen2.5-3B-Instruct
支持語言	多語言
許可證	apache-2.0
庫名稱	diffusers
任務標籤	any-to-image
標籤	flux.1、minicpm-o、qwenvl、internvl、text-to-image、multi-image-to-image、video-to-image、text_image-to-image、audio-to-image、speech-to-image