TextFluxオープンソース多言語シナリオテキスト合成モデル - 高品質なテキスト合成エフェクトを無料で実現

Textflux

yyyyyxieによって開発

TextFluxはOCR不要の拡散トランスフォーマーに基づく高忠実度多言語シーンテキスト合成モデルで、FLUX.1-Fill-devをベースモデルとして使用し、シーンテキスト合成タスクに特化しています。

画像生成 #OCRなしテキスト合成 #多言語シーンテキスト #拡散トランスフォーマー

ダウンロード数 284

リリース時間 : 4/21/2025

モデル概要

TextFluxはOCR不要のフレームワークで、拡散トランスフォーマーを用いて高忠実度の多言語シーンテキスト合成を実現します。このフレームワークは、レンダリングされたグリフをシーン画像空間に直接組み合わせることで視覚的グリフガイダンスを提供し、学習タスクを簡素化し、モデルがコンテキスト推論と視覚的融合に集中できるようにします。

モデル特徴

OCR不要アーキテクチャ

OCRエンコーダー不要の簡素化された構造

高忠実度とシーンスタイルの一貫性

精密なレンダリングでシーンスタイルの統一を維持

多言語と低リソース適応

言語横断的に優れたパフォーマンスを発揮し、少量のデータ（例：<1,000サンプル）で新しい言語に適応可能

ゼロショット汎化能力

トレーニングで未見の文字をレンダリング可能

制御可能な複数行テキスト

柔軟な複数行合成と行レベル制御をサポート

データ効率性

他の手法の約1%のデータ量で済む

モデル能力

シーンテキスト合成

多言語テキスト生成

画像とテキストの融合

ゼロショット文字レンダリング

複数行テキスト制御

使用事例

シーンテキスト生成

看板テキスト合成

自然なシーンでリアルな看板テキストを生成

高忠実度テキストでシーンスタイルと一致

多言語標識生成

複数言語を含むシーン標識を生成

トレーニングで未見の文字のレンダリングをサポート

🚀 TextFlux: 高忠実な多言語シーンテキスト合成のためのOCR不要DiTモデル

TextFlux は、拡散トランスフォーマー（DiT、FLUX.1-Fill-devに基づく）を使用したOCR不要フレームワークで、高忠実な多言語シーンテキスト合成を実現します。レンダリングされたグリフをシーン画像と空間的に連結することで直接的な視覚的グリフガイダンスを提供し、学習タスクを簡素化し、モデルが文脈推論と視覚的融合に集中できるようにします。

🚀 クイックスタート

TextFluxを使用することで、高忠実な多言語シーンテキスト合成を行うことができます。以下の手順に従ってセットアップしてください。

✨ 主な機能

OCR不要：OCRエンコーダを使用しない簡素なアーキテクチャ。
高忠実度と文脈スタイル：正確なレンダリングで、シーンとスタイルが一致します。
多言語対応と低リソース：様々な言語で強力な性能を発揮し、最小限のデータ（例：<1,000サンプル）で新しい言語に適応します。
ゼロショット汎化：学習中に見たことのない文字をレンダリングできます。
制御可能な複数行テキスト：行レベルの制御による柔軟な複数行合成。
データ効率：他の方法と比較してわずかなデータ（例：~1%）を使用します。

📦 インストール

クローン/ダウンロード：必要なコードとモデルの重みを取得します。
依存関係のインストール：

conda create -n textflux python==3.11.4 -y
conda activate textflux
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

pip install -r requirements.txt
# Ensure diffusers >= 0.32.1

💻 使用例

基本的な使用法

Gradioデモを起動するには、以下のコマンドを実行します。

python demo.py

このデモには「通常モード」（事前に結合された入力用）と「カスタムモード」（シーンをアップロード、マスクを描画、テキストを入力して自動的にテンプレートを生成し連結する）があります。

📚 ドキュメント

更新情報

2025/05/27：全パラメータの重みとLoRAの重みが利用可能になりました 🤗！
2025/05/25：ArXivの論文が公開されました 🥳！

謝辞

当コードはDiffusersをベースに修正されています。ベースモデルとしてblack-forest-labs/FLUX.1-Fill-devを採用しています。有益な議論をしてくれたすべての貢献者に感謝します！

📄 ライセンス

このTextFluxモデルの使用は、FLUX.1 [dev]非商用ライセンス契約（TextFluxが基づくFLUX.1-Fill-devに適用される特定のバージョン）によって管理されます。

引用

@misc{xie2025textfluxocrfreeditmodel,
      title={TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis}, 
      author={Yu Xie and Jielei Zhang and Pengyu Chen and Ziyue Wang and Weihang Wang and Longwen Gao and Peiyi Li and Huyang Sun and Qiang Zhang and Qian Qiao and Jiaqing Fan and Zhouhui Lian},
      year={2025},
      eprint={2505.17778},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.17778}, 
}