TextFlux開源多語言場景文本合成模型 - 免費實現高保真文本合成效果

首頁

Textflux

由yyyyyxie開發

TextFlux是一個基於無OCR擴散變換器的高保真多語言場景文本合成模型，採用FLUX.1-Fill-dev作為基礎模型，專注於場景文本合成任務。

圖像生成 #無OCR文本合成 #多語言場景文本 #擴散變換器

下載量 284

發布時間 : 4/21/2025

模型概述

TextFlux是一個無OCR框架，採用擴散變換器實現高保真多語言場景文本合成。該框架通過將渲染的字形與場景圖像空間拼接，直接提供視覺字形引導，簡化學習任務，使模型專注於上下文推理和視覺融合。

模型特點

無OCR架構

無需OCR編碼器的簡化結構

高保真與場景風格一致

精確渲染，保持場景風格統一

多語言與低資源適配

跨語言表現優異，少量數據即可適配新語言（如<1,000樣本）

零樣本泛化能力

可渲染訓練中未見的字符

可控多行文本

支持靈活的多行合成與行級控制

數據高效

僅需其他方法約1%的數據量

模型能力

場景文本合成

多語言文本生成

圖像與文本融合

零樣本字符渲染

多行文本控制

使用案例

場景文本生成

廣告牌文本合成

在自然場景中生成逼真的廣告牌文本

高保真文本與場景風格一致

多語言標識生成

生成包含多種語言的場景標識

支持訓練中未見字符的渲染

🚀 TextFlux：用於高保真多語言場景文本合成的無OCR DiT模型

TextFlux是一個無OCR的DiT模型，用於高保真多語言場景文本合成。它通過將渲染的字形與場景圖像進行空間拼接，為模型提供直接的視覺字形指導，簡化了學習任務，使模型能夠專注於上下文推理和視覺融合。

🚀 快速開始

克隆/下載

獲取必要的代碼和模型權重。

安裝依賴

conda create -n textflux python==3.11.4 -y
conda activate textflux
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

pip install -r requirements.txt
# 確保 diffusers >= 0.32.1

Gradio演示

提供“正常模式”（用於預組合輸入）和“自定義模式”（上傳場景、繪製掩碼、輸入文本以自動生成和拼接模板）。

python demo.py

✨ 主要特性

無OCR：簡化架構，無需OCR編碼器。
高保真與上下文風格：精確渲染，與場景風格一致。
多語言與低資源：跨語言表現出色，只需少量數據（如<1000個樣本）即可適應新語言。
零樣本泛化：能夠渲染訓練期間未見的字符。
可控多行文本：靈活的多行合成，支持行級控制。
數據高效：與其他方法相比，僅需使用一小部分數據（如~1%）。

📚 詳細文檔

更新日誌

2025/05/27：我們的全參數權重和LoRA權重現已可用🤗！
2025/05/25：我們的arXiv論文已發佈🥳！

致謝

我們的代碼基於Diffusers修改。我們採用black-forest-labs/FLUX.1-Fill-dev作為基礎模型。感謝所有貢獻者的有益討論！

📄 許可證

TextFlux模型的使用受FLUX.1 [dev] 非商業許可協議（或適用於TextFlux所基於的FLUX.1-Fill-dev的特定版本）的約束。

📚 引用

@misc{xie2025textfluxocrfreeditmodel,
      title={TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis}, 
      author={Yu Xie and Jielei Zhang and Pengyu Chen and Ziyue Wang and Weihang Wang and Longwen Gao and Peiyi Li and Huyang Sun and Qiang Zhang and Qian Qiao and Jiaqing Fan and Zhouhui Lian},
      year={2025},
      eprint={2505.17778},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.17778}, 
}