dart-v2-moe-sft开源图像标签生成模型 - 轻松打造Danbooru风格标签

首页

Dart V2 Moe Sft

由 p1atdev 开发

Dart v2是经过微调的Danbooru标签生成模型，基于Mixtral架构，专门用于生成Danbooru风格的图像标签。

大型语言模型

Transformers

开源协议:Apache-2.0 #Danbooru标签生成 #二次元图像标注 #Mixtral架构优化

下载量 5,575

发布时间 : 5/6/2024

模型简介

该模型能够根据输入的提示生成符合Danbooru风格的图像标签，支持多种评级、宽高比和长度设置，适用于图像标注和标签生成任务。

模型特点

多参数控制

支持控制标签的评级、宽高比、长度和身份保留程度等多种参数

Mixtral架构

基于高效的Mixtral架构，提供高质量的标签生成能力

多种变体选择

提供不同架构和规模的模型变体，满足不同需求

模型能力

Danbooru标签生成

图像标签自动生成

多参数标签控制

使用案例

图像标注

动漫图像标签生成

为动漫风格图像生成详细的Danbooru标签

生成包含角色、服装、表情等详细描述的标签

内容创作辅助

AI绘画提示生成

为AI绘画工具生成详细的提示标签

提供结构化、详细的绘画提示

🚀 Dart (Danbooru Tags Transformer) v2

Dart (Danbooru Tags Transformer) v2 是一个经过微调的模型，专门用于生成 Danbooru 标签。它能根据输入的相关信息，准确且高效地生成对应的标签，为相关应用场景提供了有力支持。

Demo: 🤗 Space with ZERO

✨ 主要特性

模型变体

名称	架构	参数规模	类型
v2-moe-sft	Mixtral	1.66 亿	监督微调（SFT）
v2-moe-base	Mixtral	1.66 亿	预训练
v2-sft	Mistral	1.14 亿	监督微调（SFT）
v2-base	Mistral	1.14 亿	预训练
v2-vectors	嵌入层	-	标签嵌入

📦 安装指南

使用 📦`dartrs` 库

pip install -U dartrs

💻 使用示例

基础用法

使用 🤗Transformers

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

MODEL_NAME = "p1atdev/dart-v2-moe-sft"

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch.bfloat16)

prompt = (
    f"<|bos|>"
    f"<copyright>vocaloid</copyright>"
    f"<character>hatsune miku</character>"
    f"<|rating:general|><|aspect_ratio:tall|><|length:long|>"
    f"<general>1girl, cat ears<|identity:none|><|input_end|>"
)
inputs = tokenizer(prompt, return_tensors="pt").input_ids

with torch.no_grad():
  outputs = model.generate(
    inputs,
    do_sample=True,
    temperature=1.0,
    top_p=1.0,
    top_k=100,
    max_new_tokens=128,
    num_beams=1,
  )

print(", ".join([tag for tag in tokenizer.batch_decode(outputs[0], skip_special_tokens=True) if tag.strip() != ""]))
# vocaloid, hatsune miku, 1girl, cat ears, closed mouth, detached sleeves, dress, expressionless, from behind, full body, green theme, hair ornament, hair ribbon, headphones, high heels, holding, holding microphone, long hair, microphone, monochrome, necktie, ribbon, short dress, shoulder tattoo, simple background, sleeveless, sleeveless dress, spot color, standing, tattoo, thighhighs, twintails, very long hair, white background

高级用法

使用 📦`dartrs` 库

⚠️ 重要提示

这个库目前还处于实验阶段，未来可能会有重大变更。

📦dartrs 是一个基于 🤗candle 后端的 Dart v2 模型推理库。

from dartrs.dartrs import DartTokenizer
from dartrs.utils import get_generation_config
from dartrs.v2 import (
    compose_prompt,
    MixtralModel,
    V2Model,
)
import time
import os

MODEL_NAME = "p1atdev/dart-v2-moe-sft"

model = MixtralModel.from_pretrained(MODEL_NAME)
tokenizer = DartTokenizer.from_pretrained(MODEL_NAME)

config = get_generation_config(
    prompt=compose_prompt(
        copyright="vocaloid",
        character="hatsune miku",
        rating="general", # sfw, general, sensitive, nsfw, questionable, explicit
        aspect_ratio="tall", # ultra_wide, wide, square, tall, ultra_tall
        length="medium", # very_short, short, medium, long, very_long
        identity="none", # none, lax, strict
        prompt="1girl, cat ears",
    ),
    tokenizer=tokenizer,
)

start = time.time()
output = model.generate(config)
end = time.time()

print(output)
print(f"Time taken: {end - start:.2f}s")
# cowboy shot, detached sleeves, empty eyes, green eyes, green hair, green necktie, hair in own mouth, hair ornament, letterboxed, light frown, long hair, long sleeves, looking to the side, necktie, parted lips, shirt, sleeveless, sleeveless shirt, twintails, wing collar
# Time taken: 0.26s

📚 详细文档

提示格式

prompt = (
    f"<|bos|>"
    f"<copyright>{copyright_tags_here}</copyright>"
    f"<character>{character_tags_here}</character>"
    f"<|rating:general|><|aspect_ratio:tall|><|length:long|>"
    f"<general>{general_tags_here}<|identity:none|><|input_end|>"
)

评级标签：<|rating:sfw|>、<|rating:general|>、<|rating:sensitive|>、nsfw、<|rating:questionable|>、<|rating:explicit|>
- sfw：随机生成 general 或 sensitive 评级类别的标签。
- general：生成 general 评级类别的标签。
- sensitive：生成 sensitive 评级类别的标签。
- nsfw：随机生成 questionable 或 explicit 评级类别的标签。
- questionable：生成 questionable 评级类别的标签。
- explicit：生成 explicit 评级类别的标签。
宽高比标签：<|aspect_ratio:ultra_wide|>、<|aspect_ratio:wide|>、<|aspect_ratio:square|>、<|aspect_ratio:tall|>、<|aspect_ratio:ultra_tall|>
- ultra_wide：生成适合极宽宽高比图像（约 2:1）的标签。
- wide：生成适合宽宽高比图像（2:1 - 9:8）的标签。
- square：生成适合正方形宽高比图像（9:8 - 8:9）的标签。
- tall：生成适合高宽高比图像（8:9 - 1:2）的标签。
- ultra_tall：生成适合极高宽高比图像（1:2 及以上）的标签。
长度标签：<|length:very_short|>、<|length:short|>、<|length:medium|>、<|length:long|>、<|length:very_long|>
- very_short：总共生成约 10 个标签。
- short：总共生成约 20 个标签。
- medium：总共生成约 30 个标签。
- long：总共生成约 40 个标签。
- very_long：总共生成 40 个以上的标签。
身份标签：<|identity:none|>、<|identity:lax|>、<|identity:strict|>
- 此标签指定了在生成标签时，对所提供标签中角色或主体身份的保留严格程度。
- none：当指定的通用标签非常少的时候推荐使用。它会非常有创造性地生成标签，但有时会忽略通用标签的条件。
- lax：如果您希望保留通用标签中角色或主体的身份，推荐使用此标签。它会尽量不生成与输入通用标签冲突的标签。
- strict：如果您强烈希望保留通用标签中角色或主体的身份，推荐使用此标签。它会比 lax 更严格地避免生成与输入通用标签冲突的标签，但创造性较差。如果您不喜欢 strict 的结果，请尝试 lax 或 none。

模型详情

模型描述

属性	详情
开发者	Plat
模型类型	因果语言模型
语言（NLP）	Danbooru 标签
许可证	Apache-2.0
微调基础模型	dart-v2-moe-base
演示	可在 🤗 Space 上查看