X2I
X2Iはマルチモーダル拡散Transformerモデルで、テキスト、画像、動画、音声、音声など複数の入力モダリティを画像出力に変換できます。
ダウンロード数 435
リリース時間 : 3/15/2025
モデル概要
X2Iはアテンション蒸留技術によりマルチモーダル理解能力を拡散Transformerに統合し、テキスト、画像、動画、音声、音声など様々な入力モダリティから画像を生成できます。
モデル特徴
マルチモーダル入力サポート
テキスト、画像、動画、音声、音声など複数の入力モダリティを画像に変換することをサポート
アテンション蒸留技術
アテンション蒸留によりマルチモーダル理解能力を拡散Transformerにシームレスに統合
多言語サポート
複数言語のテキスト入力をサポート
モデル能力
テキストから画像生成
複数画像から画像変換
動画から画像変換
テキスト画像から画像変換
音声から画像変換
音声から画像変換
使用事例
クリエイティブデザイン
コンセプトアート生成
テキスト記述に基づきコンセプトアート作品を生成
高品質なコンセプトアート画像を迅速に生成
製品設計の可視化
製品説明を可視化デザインに変換
製品設計プロセスを加速
マルチメディア処理
動画キーフレーム抽出
動画からキーフレームを抽出しアートスタイルの画像に変換
アートスタイルの動画要約を生成
音声可視化
音声を視覚表現に変換
ミュージックビジュアライゼーション作品を創作
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98