BRIA 3.1
模型简介
BRIA 3.1 是一款专注于文本生成图像的AI模型,通过完全基于授权数据训练实现高质量生成,兼具美学升级与法律合规性。
模型特点
美学升级
支持生成写实、插画、平面设计等多种风格的高吸引力图像。
精准提示对齐
严格遵循用户文本描述,输出更准确有意义的内容。
法律合规
因采用100%授权数据训练,提供版权与隐私侵权的全面法律责任保障。
溯源引擎
专利溯源引擎根据生成图像向数据合作伙伴提供合理补偿。
可定制技术
开放源代码和权重支持深度定制。
模型能力
文本生成图像
多风格图像生成
高分辨率输出
法律合规图像生成
使用案例
创意设计
广告创意
生成高吸引力的广告图像
高质量、符合法律要求的广告素材
插画创作
根据文本描述生成插画
风格多样的插画作品
商业应用
产品展示
生成产品概念图
高保真度的产品图像
🚀 BRIA 3.1文本到图像模型
BRIA 3.1是一款全新的文本到图像模型,它仅使用完全授权的数据进行训练,能够实现高质量的图像生成。该模型为开发者提供API访问和模型权重直接访问两种方式,方便集成。它拥有40亿参数,相对轻量级,同时具备高视觉保真度和强大的提示对齐能力。
🚀 快速开始
BRIA 3.1模型可通过API、ComfyUI节点或直接获取模型权重的方式使用。若需获取模型权重,需购买商业许可证。以下是使用Diffusers库调用模型的示例代码:
pip install diffusers, hf_hub_download
from huggingface_hub import hf_hub_download
import os
try:
local_dir = os.path.dirname(__file__)
except:
local_dir = '.'
hf_hub_download(repo_id="briaai/BRIA-3.1", filename='pipeline_bria.py', local_dir=local_dir)
hf_hub_download(repo_id="briaai/BRIA-3.1", filename='transformer_bria.py', local_dir=local_dir)
hf_hub_download(repo_id="briaai/BRIA-3.1", filename='bria_utils.py', local_dir=local_dir)
import torch
from pipeline_bria import BriaPipeline
# trust_remote_code = True - allows loading a transformer which is not present at the transformers library(from transformer/bria_transformer.py)
pipe = BriaPipeline.from_pretrained("briaai/BRIA-3.1", torch_dtype=torch.bfloat16,trust_remote_code=True)
pipe.to(device="cuda")
prompt = "A portrait of a Beautiful and playful ethereal singer, golden designs, highly detailed, blurry background"
negative_prompt = "Logo,Watermark,Ugly,Morbid,Extra fingers,Poorly drawn hands,Mutation,Blurry,Extra limbs,Gross proportions,Missing arms,Mutated hands,Long neck,Duplicate,Mutilated,Mutilated hands,Poorly drawn face,Deformed,Bad anatomy,Cloned face,Malformed limbs,Missing legs,Too many fingers"
images = pipe(prompt=prompt, negative_prompt=negative_prompt, height=1024, width=1024).images[0]
✨ 主要特性
- 美学提升:能够生成各种风格(如逼真摄影、插画和图形)的极具吸引力的图像。
- 高提示对齐:确保生成的图像能精确遵循用户提供的文本描述,输出更准确、有意义。
- 合法合规:由于使用了来自领先数据合作伙伴的100%授权数据进行训练,该模型为版权和隐私侵权提供全面的法律责任保障,确保内容的道德使用。
- 归因引擎:拥有专利的归因引擎,可根据生成的图像对数据合作伙伴进行公平补偿。
- 可定制技术:提供源代码和权重,方便进行广泛的定制。
📦 安装指南
使用Diffusers库调用模型,需先安装相关依赖:
pip install diffusers, hf_hub_download
💻 使用示例
基础用法
pip install diffusers, hf_hub_download
from huggingface_hub import hf_hub_download
import os
try:
local_dir = os.path.dirname(__file__)
except:
local_dir = '.'
hf_hub_download(repo_id="briaai/BRIA-3.1", filename='pipeline_bria.py', local_dir=local_dir)
hf_hub_download(repo_id="briaai/BRIA-3.1", filename='transformer_bria.py', local_dir=local_dir)
hf_hub_download(repo_id="briaai/BRIA-3.1", filename='bria_utils.py', local_dir=local_dir)
import torch
from pipeline_bria import BriaPipeline
# trust_remote_code = True - allows loading a transformer which is not present at the transformers library(from transformer/bria_transformer.py)
pipe = BriaPipeline.from_pretrained("briaai/BRIA-3.1", torch_dtype=torch.bfloat16,trust_remote_code=True)
pipe.to(device="cuda")
prompt = "A portrait of a Beautiful and playful ethereal singer, golden designs, highly detailed, blurry background"
negative_prompt = "Logo,Watermark,Ugly,Morbid,Extra fingers,Poorly drawn hands,Mutation,Blurry,Extra limbs,Gross proportions,Missing arms,Mutated hands,Long neck,Duplicate,Mutilated,Mutilated hands,Poorly drawn face,Deformed,Bad anatomy,Cloned face,Malformed limbs,Missing legs,Too many fingers"
images = pipe(prompt=prompt, negative_prompt=negative_prompt, height=1024, width=1024).images[0]
高级用法
暂无高级用法示例。
📚 详细文档
获取访问权限
- API端点:Bria.ai
- ComfyUI:在工作流中使用
- 获取BRIA 3.1权重:需要购买许可证才能访问BRIA 3.1,以确保与数据合作伙伴的版税管理和商业使用的全面责任覆盖。
- 许可证:商业许可条款和条件
使用提示
- 建议使用负提示。
- 微调时,使用零值而非空文本嵌入。
- 支持多种宽高比,但分辨率总体应约为
1024*1024 = 100万
像素,例如:((1024,1024), (1280, 768), (1344, 768), (832, 1216), (1152, 832), (1216, 832), (960,1088)
- 使用30 - 50步(步数越高越好)
- 使用
guidance_scale
为5.0
🔧 技术细节
这些改进通过以下几个关键技术升级实现: 首先,使用先进的视觉语言模型生成的合成字幕扩充了大型数据集。然后,通过集成最先进的变压器(特别是使用MMDIT和DIT层)改进架构,并使用整流流目标进行训练。这种方法与其他开放模型(如AuraFlow、Flux和SD3)类似。BRIA 3.1还采用2D RoPE进行位置嵌入、KQ归一化以提高训练稳定性,并使用噪声偏移进行高分辨率训练。
为确保推理和微调成本可控,BRIA 3.1设计得较为紧凑,由28个MMDIT层和8个DIT层组成,总共40亿参数。仅使用T5文本编码器,避免使用CLIP以减少不必要的偏差。在空间压缩方面,使用开源的VAE f8,并确认该VAE不会给模型引入偏差。
基础模型未进行蒸馏,原生支持无分类器引导,为微调提供了充分的灵活性。
此外,BRIA 3.1在多种宽高比和分辨率上进行训练,能够原生生成水平和垂直方向的100万像素图像。
最后,还为Diffusers代码库和ComfyUI提供全面支持,便于快速实验和部署。微调代码将很快提供。
📄 许可证
- 许可证类型:bria-t2i
- 许可证链接:商业许可条款和条件
属性 | 详情 |
---|---|
模型类型 | 文本到图像模型 |
训练数据 | 使用来自领先数据合作伙伴的100%授权数据进行训练,不包含受版权保护的材料,如虚构角色、标志、商标、公众人物、有害内容或侵犯隐私的内容 |
⚠️ 重要提示
💡 使用建议
- 建议使用负提示。
- 微调时,使用零值而非空文本嵌入。
- 支持多种宽高比,但分辨率总体应约为
1024*1024 = 100万
像素。- 使用30 - 50步(步数越高越好)。
- 使用
guidance_scale
为5.0。
Clip Vit Large Patch14 336
基于Vision Transformer架构的大规模视觉语言预训练模型,支持图像与文本的跨模态理解
文本生成图像
Transformers

C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIP是基于CLIP开发的视觉语言模型,专门针对时尚领域进行微调,能够生成通用产品表征。
文本生成图像
Transformers 英语

F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3是Google推出的轻量级先进开放模型系列,基于与Gemini模型相同的研究和技术构建。该模型是多模态模型,能够处理文本和图像输入并生成文本输出。
文本生成图像
Transformers

G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIP是一个统一的视觉语言预训练框架,擅长视觉问答任务,通过语言-图像联合训练实现多模态理解与生成能力
文本生成图像
Transformers

B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
基于OpenCLIP框架在LAION-2B英文数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索任务
文本生成图像
Safetensors
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
基于OpenCLIP框架在LAION-2B英语子集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
Safetensors
C
laion
1.1M
112
Pickscore V1
PickScore v1 是一个针对文本生成图像的评分函数,可用于预测人类偏好、评估模型性能和图像排序等任务。
文本生成图像
Transformers

P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询在图像中定位对象。
文本生成图像
Transformers

O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2 是 Meta 发布的多语言多模态大型语言模型,支持图像文本到文本的转换任务,具备强大的跨模态理解能力。
文本生成图像
Transformers 支持多种语言

L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一个零样本文本条件目标检测模型,可以通过文本查询搜索图像中的对象,无需特定类别的训练数据。
文本生成图像
Transformers

O
google
764.95k
129
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98