T

Textflux

由yyyyyxie開發
TextFlux是一個基於無OCR擴散變換器的高保真多語言場景文本合成模型,採用FLUX.1-Fill-dev作為基礎模型,專注於場景文本合成任務。
下載量 284
發布時間 : 4/21/2025

模型概述

TextFlux是一個無OCR框架,採用擴散變換器實現高保真多語言場景文本合成。該框架通過將渲染的字形與場景圖像空間拼接,直接提供視覺字形引導,簡化學習任務,使模型專注於上下文推理和視覺融合。

模型特點

無OCR架構
無需OCR編碼器的簡化結構
高保真與場景風格一致
精確渲染,保持場景風格統一
多語言與低資源適配
跨語言表現優異,少量數據即可適配新語言(如<1,000樣本)
零樣本泛化能力
可渲染訓練中未見的字符
可控多行文本
支持靈活的多行合成與行級控制
數據高效
僅需其他方法約1%的數據量

模型能力

場景文本合成
多語言文本生成
圖像與文本融合
零樣本字符渲染
多行文本控制

使用案例

場景文本生成
廣告牌文本合成
在自然場景中生成逼真的廣告牌文本
高保真文本與場景風格一致
多語言標識生成
生成包含多種語言的場景標識
支持訓練中未見字符的渲染
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase