dart-v2-moe-sftオープンソース画像タグ生成モデル - 簡単にDanbooruスタイルのタグを作成

ホーム

Dart V2 Moe Sft

p1atdevによって開発

Dart v2はMixtralアーキテクチャを基に微調整されたDanbooruスタイルの画像タグ生成モデルです。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #Danbooruタグ生成 #二次元画像アノテーション #Mixtralアーキテクチャ最適化

ダウンロード数 5,575

リリース時間 : 5/6/2024

モデル概要

このモデルは入力プロンプトに基づいてDanbooruスタイルの画像タグを生成でき、複数のレーティング、アスペクト比、長さ設定をサポートし、画像アノテーションやタグ生成タスクに適しています。

モデル特徴

マルチパラメータ制御

タグのレーティング、アスペクト比、長さ、アイデンティティ保持度など複数のパラメータを制御可能

Mixtralアーキテクチャ

効率的なMixtralアーキテクチャを基盤とし、高品質なタグ生成能力を提供

複数バリエーション選択

異なるアーキテクチャと規模のモデルバリエーションを提供し、様々なニーズに対応

モデル能力

Danbooruタグ生成

画像タグ自動生成

マルチパラメータタグ制御

使用事例

画像アノテーション

アニメ画像タグ生成

アニメスタイル画像に対して詳細なDanbooruタグを生成

キャラクター、服装、表情などの詳細な説明を含むタグを生成

コンテンツ創作支援

AI絵画プロンプト生成

AI絵画ツール向けに詳細なプロンプトタグを生成

構造化された詳細な絵画プロンプトを提供

🚀 Dart (Danbooru Tags Transformer) v2

このモデルは、Danbooruタグを生成する微調整済みのDart (Danbooru Tags Transformer) モデルです。

デモ: 🤗 Space with ZERO

✨ 主な機能

モデルのバリエーション

名前	アーキテクチャ	パラメータサイズ	タイプ
v2-moe-sft	Mixtral	166m	SFT
v2-moe-base	Mixtral	166m	事前学習
v2-sft	Mistral	114m	SFT
v2-base	Mistral	114m	事前学習
v2-vectors	Embedding	-	タグ埋め込み

📦 インストール

🤗Transformersを使用する場合

# このセクションではコードのインストール関連部分がないため、実際のインストール手順は省略

📦`dartrs`ライブラリを使用する場合

pip install -U dartrs

💻 使用例

基本的な使用法

🤗Transformersを使用する場合

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

MODEL_NAME = "p1atdev/dart-v2-moe-sft"

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch.bfloat16)

prompt = (
    f"<|bos|>"
    f"<copyright>vocaloid</copyright>"
    f"<character>hatsune miku</character>"
    f"<|rating:general|><|aspect_ratio:tall|><|length:long|>"
    f"<general>1girl, cat ears<|identity:none|><|input_end|>"
)
inputs = tokenizer(prompt, return_tensors="pt").input_ids

with torch.no_grad():
  outputs = model.generate(
    inputs,
    do_sample=True,
    temperature=1.0,
    top_p=1.0,
    top_k=100,
    max_new_tokens=128,
    num_beams=1,
  )

print(", ".join([tag for tag in tokenizer.batch_decode(outputs[0], skip_special_tokens=True) if tag.strip() != ""]))
# vocaloid, hatsune miku, 1girl, cat ears, closed mouth, detached sleeves, dress, expressionless, from behind, full body, green theme, hair ornament, hair ribbon, headphones, high heels, holding, holding microphone, long hair, microphone, monochrome, necktie, ribbon, short dress, shoulder tattoo, simple background, sleeveless, sleeveless dress, spot color, standing, tattoo, thighhighs, twintails, very long hair, white background

📦`dartrs`ライブラリを使用する場合

from dartrs.dartrs import DartTokenizer
from dartrs.utils import get_generation_config
from dartrs.v2 import (
    compose_prompt,
    MixtralModel,
    V2Model,
)
import time
import os

MODEL_NAME = "p1atdev/dart-v2-moe-sft"

model = MixtralModel.from_pretrained(MODEL_NAME)
tokenizer = DartTokenizer.from_pretrained(MODEL_NAME)

config = get_generation_config(
    prompt=compose_prompt(
        copyright="vocaloid",
        character="hatsune miku",
        rating="general", # sfw, general, sensitive, nsfw, questionable, explicit
        aspect_ratio="tall", # ultra_wide, wide, square, tall, ultra_tall
        length="medium", # very_short, short, medium, long, very_long
        identity="none", # none, lax, strict
        prompt="1girl, cat ears",
    ),
    tokenizer=tokenizer,
)

start = time.time()
output = model.generate(config)
end = time.time()

print(output)
print(f"Time taken: {end - start:.2f}s")
# cowboy shot, detached sleeves, empty eyes, green eyes, green hair, green necktie, hair in own mouth, hair ornament, letterboxed, light frown, long hair, long sleeves, looking to the side, necktie, parted lips, shirt, sleeveless, sleeveless shirt, twintails, wing collar
# Time taken: 0.26s

高度な使用法

プロンプト形式の詳細

prompt = (
    f"<|bos|>"
    f"<copyright>{copyright_tags_here}</copyright>"
    f"<character>{character_tags_here}</character>"
    f"<|rating:general|><|aspect_ratio:tall|><|length:long|>"
    f"<general>{general_tags_here}<|identity:none|><|input_end|>"
)

レーティングタグ: <|rating:sfw|>, <|rating:general|>, <|rating:sensitive|>, nsfw, <|rating:questionable|>, <|rating:explicit|>
- sfw: generalまたはsensitiveレーティングカテゴリのタグをランダムに生成します。
- general: generalレーティングカテゴリのタグを生成します。
- sensitive: sensitiveレーティングカテゴリのタグを生成します。
- nsfw: questionableまたはexplicitレーティングカテゴリのタグをランダムに生成します。
- questionable: questionableレーティングカテゴリのタグを生成します。
- explicit: explicitレーティングカテゴリのタグを生成します。
アスペクト比タグ: <|aspect_ratio:ultra_wide|>, <|aspect_ratio:wide|>, <|aspect_ratio:square|>, <|aspect_ratio:tall|>, <|aspect_ratio:ultra_tall|>
- ultra_wide: 極端に横長のアスペクト比の画像に適したタグを生成します。(~2:1)
- wide: 横長のアスペクト比の画像に適したタグを生成します。(2:1~9:8)
- square: 正方形のアスペクト比の画像に適したタグを生成します。(9:8~8:9)
- tall: 縦長のアスペクト比の画像に適したタグを生成します。(8:9~1:2)
- ultra_tall: 極端に縦長のアスペクト比の画像に適したタグを生成します。(1:2~)
アイデンティティタグ: <|identity:none|>, <|identity:lax|>, <|identity:strict|>
- このタグは、指定された一般タグ内のキャラクターまたはサブジェクトのアイデンティティをどれだけ厳密に保持するかを指定します。
- none: 指定された一般タグが非常に少ない場合に推奨されます。非常に創造的にタグを生成しますが、時には一般タグの条件を無視することがあります。
- lax: 一般タグ内のキャラクターまたはサブジェクトのアイデンティティを維持したい場合に推奨されます。このタグは、入力された一般タグと矛盾するタグを生成しないように試みます。
- strict: 一般タグ内のキャラクターまたはサブジェクトのアイデンティティを強く維持したい場合に推奨されます。このタグは、laxよりも厳密に入力された一般タグと矛盾するタグを生成しないように試みます。ただし、創造性が低いため、strictの結果が気に入らない場合は、laxまたはnoneを試してみてください。

📚 ドキュメント

モデルの詳細

モデルの説明

属性	詳情
開発者	Plat
モデルタイプ	因果言語モデル
言語 (NLP)	Danbooruタグ
ライセンス	Apache-2.0
微調整元のモデル	dart-v2-moe-base
デモ	🤗 Spaceで利用可能