BRIA 3.1
模型概述
BRIA 3.1 是一款專注於文本生成圖像的AI模型,通過完全基於授權數據訓練實現高質量生成,兼具美學升級與法律合規性。
模型特點
美學升級
支持生成寫實、插畫、平面設計等多種風格的高吸引力圖像。
精準提示對齊
嚴格遵循用戶文本描述,輸出更準確有意義的內容。
法律合規
因採用100%授權數據訓練,提供版權與隱私侵權的全面法律責任保障。
溯源引擎
專利溯源引擎根據生成圖像向數據合作伙伴提供合理補償。
可定製技術
開放源代碼和權重支持深度定製。
模型能力
文本生成圖像
多風格圖像生成
高分辨率輸出
法律合規圖像生成
使用案例
創意設計
廣告創意
生成高吸引力的廣告圖像
高質量、符合法律要求的廣告素材
插畫創作
根據文本描述生成插畫
風格多樣的插畫作品
商業應用
產品展示
生成產品概念圖
高保真度的產品圖像
🚀 BRIA 3.1文本到圖像模型
BRIA 3.1是一款全新的文本到圖像模型,它僅使用完全授權的數據進行訓練,能夠實現高質量的圖像生成。該模型為開發者提供API訪問和模型權重直接訪問兩種方式,方便集成。它擁有40億參數,相對輕量級,同時具備高視覺保真度和強大的提示對齊能力。
🚀 快速開始
BRIA 3.1模型可通過API、ComfyUI節點或直接獲取模型權重的方式使用。若需獲取模型權重,需購買商業許可證。以下是使用Diffusers庫調用模型的示例代碼:
pip install diffusers, hf_hub_download
from huggingface_hub import hf_hub_download
import os
try:
local_dir = os.path.dirname(__file__)
except:
local_dir = '.'
hf_hub_download(repo_id="briaai/BRIA-3.1", filename='pipeline_bria.py', local_dir=local_dir)
hf_hub_download(repo_id="briaai/BRIA-3.1", filename='transformer_bria.py', local_dir=local_dir)
hf_hub_download(repo_id="briaai/BRIA-3.1", filename='bria_utils.py', local_dir=local_dir)
import torch
from pipeline_bria import BriaPipeline
# trust_remote_code = True - allows loading a transformer which is not present at the transformers library(from transformer/bria_transformer.py)
pipe = BriaPipeline.from_pretrained("briaai/BRIA-3.1", torch_dtype=torch.bfloat16,trust_remote_code=True)
pipe.to(device="cuda")
prompt = "A portrait of a Beautiful and playful ethereal singer, golden designs, highly detailed, blurry background"
negative_prompt = "Logo,Watermark,Ugly,Morbid,Extra fingers,Poorly drawn hands,Mutation,Blurry,Extra limbs,Gross proportions,Missing arms,Mutated hands,Long neck,Duplicate,Mutilated,Mutilated hands,Poorly drawn face,Deformed,Bad anatomy,Cloned face,Malformed limbs,Missing legs,Too many fingers"
images = pipe(prompt=prompt, negative_prompt=negative_prompt, height=1024, width=1024).images[0]
✨ 主要特性
- 美學提升:能夠生成各種風格(如逼真攝影、插畫和圖形)的極具吸引力的圖像。
- 高提示對齊:確保生成的圖像能精確遵循用戶提供的文本描述,輸出更準確、有意義。
- 合法合規:由於使用了來自領先數據合作伙伴的100%授權數據進行訓練,該模型為版權和隱私侵權提供全面的法律責任保障,確保內容的道德使用。
- 歸因引擎:擁有專利的歸因引擎,可根據生成的圖像對數據合作伙伴進行公平補償。
- 可定製技術:提供源代碼和權重,方便進行廣泛的定製。
📦 安裝指南
使用Diffusers庫調用模型,需先安裝相關依賴:
pip install diffusers, hf_hub_download
💻 使用示例
基礎用法
pip install diffusers, hf_hub_download
from huggingface_hub import hf_hub_download
import os
try:
local_dir = os.path.dirname(__file__)
except:
local_dir = '.'
hf_hub_download(repo_id="briaai/BRIA-3.1", filename='pipeline_bria.py', local_dir=local_dir)
hf_hub_download(repo_id="briaai/BRIA-3.1", filename='transformer_bria.py', local_dir=local_dir)
hf_hub_download(repo_id="briaai/BRIA-3.1", filename='bria_utils.py', local_dir=local_dir)
import torch
from pipeline_bria import BriaPipeline
# trust_remote_code = True - allows loading a transformer which is not present at the transformers library(from transformer/bria_transformer.py)
pipe = BriaPipeline.from_pretrained("briaai/BRIA-3.1", torch_dtype=torch.bfloat16,trust_remote_code=True)
pipe.to(device="cuda")
prompt = "A portrait of a Beautiful and playful ethereal singer, golden designs, highly detailed, blurry background"
negative_prompt = "Logo,Watermark,Ugly,Morbid,Extra fingers,Poorly drawn hands,Mutation,Blurry,Extra limbs,Gross proportions,Missing arms,Mutated hands,Long neck,Duplicate,Mutilated,Mutilated hands,Poorly drawn face,Deformed,Bad anatomy,Cloned face,Malformed limbs,Missing legs,Too many fingers"
images = pipe(prompt=prompt, negative_prompt=negative_prompt, height=1024, width=1024).images[0]
高級用法
暫無高級用法示例。
📚 詳細文檔
獲取訪問權限
- API端點:Bria.ai
- ComfyUI:在工作流中使用
- 獲取BRIA 3.1權重:需要購買許可證才能訪問BRIA 3.1,以確保與數據合作伙伴的版稅管理和商業使用的全面責任覆蓋。
- 許可證:商業許可條款和條件
使用提示
- 建議使用負提示。
- 微調時,使用零值而非空文本嵌入。
- 支持多種寬高比,但分辨率總體應約為
1024*1024 = 100萬
像素,例如:((1024,1024), (1280, 768), (1344, 768), (832, 1216), (1152, 832), (1216, 832), (960,1088)
- 使用30 - 50步(步數越高越好)
- 使用
guidance_scale
為5.0
🔧 技術細節
這些改進通過以下幾個關鍵技術升級實現: 首先,使用先進的視覺語言模型生成的合成字幕擴充了大型數據集。然後,通過集成最先進的變壓器(特別是使用MMDIT和DIT層)改進架構,並使用整流流目標進行訓練。這種方法與其他開放模型(如AuraFlow、Flux和SD3)類似。BRIA 3.1還採用2D RoPE進行位置嵌入、KQ歸一化以提高訓練穩定性,並使用噪聲偏移進行高分辨率訓練。
為確保推理和微調成本可控,BRIA 3.1設計得較為緊湊,由28個MMDIT層和8個DIT層組成,總共40億參數。僅使用T5文本編碼器,避免使用CLIP以減少不必要的偏差。在空間壓縮方面,使用開源的VAE f8,並確認該VAE不會給模型引入偏差。
基礎模型未進行蒸餾,原生支持無分類器引導,為微調提供了充分的靈活性。
此外,BRIA 3.1在多種寬高比和分辨率上進行訓練,能夠原生生成水平和垂直方向的100萬像素圖像。
最後,還為Diffusers代碼庫和ComfyUI提供全面支持,便於快速實驗和部署。微調代碼將很快提供。
📄 許可證
- 許可證類型:bria-t2i
- 許可證鏈接:商業許可條款和條件
屬性 | 詳情 |
---|---|
模型類型 | 文本到圖像模型 |
訓練數據 | 使用來自領先數據合作伙伴的100%授權數據進行訓練,不包含受版權保護的材料,如虛構角色、標誌、商標、公眾人物、有害內容或侵犯隱私的內容 |
⚠️ 重要提示
💡 使用建議
- 建議使用負提示。
- 微調時,使用零值而非空文本嵌入。
- 支持多種寬高比,但分辨率總體應約為
1024*1024 = 100萬
像素。- 使用30 - 50步(步數越高越好)。
- 使用
guidance_scale
為5.0。
Clip Vit Large Patch14 336
基於Vision Transformer架構的大規模視覺語言預訓練模型,支持圖像與文本的跨模態理解
文本生成圖像
Transformers

C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIP是基於CLIP開發的視覺語言模型,專門針對時尚領域進行微調,能夠生成通用產品表徵。
文本生成圖像
Transformers 英語

F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3是Google推出的輕量級先進開放模型系列,基於與Gemini模型相同的研究和技術構建。該模型是多模態模型,能夠處理文本和圖像輸入並生成文本輸出。
文本生成圖像
Transformers

G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIP是一個統一的視覺語言預訓練框架,擅長視覺問答任務,通過語言-圖像聯合訓練實現多模態理解與生成能力
文本生成圖像
Transformers

B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
基於OpenCLIP框架在LAION-2B英文數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索任務
文本生成圖像
Safetensors
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
基於OpenCLIP框架在LAION-2B英語子集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
文本生成圖像
Safetensors
C
laion
1.1M
112
Pickscore V1
PickScore v1 是一個針對文本生成圖像的評分函數,可用於預測人類偏好、評估模型性能和圖像排序等任務。
文本生成圖像
Transformers

P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一種零樣本文本條件目標檢測模型,可通過文本查詢在圖像中定位對象。
文本生成圖像
Transformers

O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2 是 Meta 發佈的多語言多模態大型語言模型,支持圖像文本到文本的轉換任務,具備強大的跨模態理解能力。
文本生成圖像
Transformers 支持多種語言

L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一個零樣本文本條件目標檢測模型,可以通過文本查詢搜索圖像中的對象,無需特定類別的訓練數據。
文本生成圖像
Transformers

O
google
764.95k
129
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98