Textflux
模型概述
TextFlux是一個無OCR框架,採用擴散變換器實現高保真多語言場景文本合成。該框架通過將渲染的字形與場景圖像空間拼接,直接提供視覺字形引導,簡化學習任務,使模型專注於上下文推理和視覺融合。
模型特點
無OCR架構
無需OCR編碼器的簡化結構
高保真與場景風格一致
精確渲染,保持場景風格統一
多語言與低資源適配
跨語言表現優異,少量數據即可適配新語言(如<1,000樣本)
零樣本泛化能力
可渲染訓練中未見的字符
可控多行文本
支持靈活的多行合成與行級控制
數據高效
僅需其他方法約1%的數據量
模型能力
場景文本合成
多語言文本生成
圖像與文本融合
零樣本字符渲染
多行文本控制
使用案例
場景文本生成
廣告牌文本合成
在自然場景中生成逼真的廣告牌文本
高保真文本與場景風格一致
多語言標識生成
生成包含多種語言的場景標識
支持訓練中未見字符的渲染
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98