🚀 SegMoE-2x1-v0: Segmind Mixture of Diffusion Experts
SegMoE-2x1-v0は、2つのExpert SDXLモデルからsegmoeを使用して生成された、未学習のSegmind Mixture of Diffusion Expertsモデルです。SegMoEは、学習することなく数分でStable Diffusionモデルを動的にMixture of Expertsに結合する強力なフレームワークです。このフレームワークにより、より大きな知識、より良い忠実度、およびより良い画像品質を提供する大規模なモデルを即座に作成することができます。

🚀 クイックスタート
このモデルは、segmoeライブラリを介して使用することができます。
まず、以下のコマンドを実行してsegmoeをインストールしてください。
pip install segmoe
基本的な使用法
from segmoe import SegMoEPipeline
pipeline = SegMoEPipeline("segmind/SegMoE-2x1-v0", device = "cuda")
prompt = "cosmic canvas, orange city background, painting of a chubby cat"
negative_prompt = "nsfw, bad quality, worse quality"
img = pipeline(
prompt=prompt,
negative_prompt=negative_prompt,
height=1024,
width=1024,
num_inference_steps=25,
guidance_scale=7.5,
).images[0]
img.save("image.png")

設定
このモデルを作成するために使用された設定は次のとおりです。
base_model: SG161222/RealVisXL_V3.0
num_experts: 2
moe_layers: all
num_experts_per_tok: 1
experts:
- source_model: frankjoshua/juggernautXL_v8Rundiffusion
positive_prompt: "aesthetic, cinematic, hands, portrait, photo, illustration, 8K, hyperdetailed, origami, man, woman, supercar"
negative_prompt: "(worst quality, low quality, normal quality, lowres, low details, oversaturated, undersaturated, overexposed, underexposed, grayscale, bw, bad photo, bad photography, bad art:1.4), (watermark, signature, text font, username, error, logo, words, letters, digits, autograph, trademark, name:1.2), (blur, blurry, grainy), morbid, ugly, asymmetrical, mutated malformed, mutilated, poorly lit, bad shadow, draft, cropped, out of frame, cut off, censored, jpeg artifacts, out of focus, glitch, duplicate, (airbrushed, cartoon, anime, semi-realistic, cgi, render, blender, digital art, manga, amateur:1.3), (3D ,3D Game, 3D Game Scene, 3D Character:1.1), (bad hands, bad anatomy, bad body, bad face, bad teeth, bad arms, bad legs, deformities:1.3)"
- source_model: SG161222/RealVisXL_V3.0
positive_prompt: "cinematic, portrait, photograph, instagram, fashion, movie, macro shot, 8K, RAW, hyperrealistic, ultra realistic,"
negative_prompt: "(octane render, render, drawing, anime, bad photo, bad photography:1.3), (worst quality, low quality, blurry:1.2), (bad teeth, deformed teeth, deformed lips), (bad anatomy, bad proportions:1.1), (deformed iris, deformed pupils), (deformed eyes, bad eyes), (deformed face, ugly face, bad face), (deformed hands, bad hands, fused fingers), morbid, mutilated, mutation, disfigured"
その他のバリアント
Hugging Face上で3つのマージモデルをリリースしています。
比較
以下の画像に示すように、プロンプトの理解度が向上していることがわかります。左から右へ、SegMoE-2x1-v0、SegMoE-4x2-v0、ベースモデル (RealVisXL_V3.0) です。

three green glass bottles

panda bear with aviator glasses on its head

the statue of Liberty next to the Washington Monument
モデルの説明
適用範囲外の使用
SegMoE-2x1-v0モデルは、人物、イベント、または現実世界の情報の事実的または正確な表現を作成するのに適していません。高精度と正確性を必要とするタスクには意図されていません。
✨ 主な機能
- 複数の微調整されたエキスパートの知識を活用
- 学習不要
- データへの適応性が高い
- より良い微調整モデルをエキスパートの1つとして使用することで、モデルをアップグレードできる
🔧 技術的な制限
- モデルは画像の忠実度と忠実度を向上させますが、学習なしではいずれかのエキスパートよりも大幅に優れるわけではなく、エキスパートの知識に依存しています。
- 速度に関してはまだ最適化されていません。
- フレームワークのメモリ使用量はまだ最適化されていません。
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。
引用
@misc{segmoe,
author = {Yatharth Gupta, Vishnu V Jaddipal, Harish Prabhala},
title = {SegMoE},
year = {2024},
publisher = {HuggingFace},
journal = {HuggingFace Models},
howpublished = {\url{https://huggingface.co/segmind/SegMoE-2x1-v0}}
}