SegMoE - 2x1 - v0オープンソース画像生成モデル - 組合せエキスパートモデルによる高品質画像創作

Segmoe 2x1 V0

segmindによって開発

SegMoE-2x1-v0は、トレーニング不要のSegmindディフュージョンエキスパート混合モデルで、2つのエキスパートSDXLモデルを動的に組み合わせて生成され、より広範な知識、優れた指示追従性、およびより高い画質を提供します。

画像生成オープンソースライセンス:Apache-2.0 #動的混合エキスパート #ゼロトレーニング組み合わせ #超現実的な画像生成

ダウンロード数 1,497

リリース時間 : 1/29/2024

モデル概要

SegMoEは、数分で安定したディフュージョンモデルを動的にエキスパート混合体に組み合わせる強力なフレームワークで、トレーニング不要です。このフレームワークにより、より大きなモデルを即座に作成でき、より広範な知識、優れた指示追従性、およびより高い画質を提供します。

モデル特徴

動的エキスパートモデル組み合わせ

トレーニング不要で複数のエキスパートモデルを動的に組み合わせ、より広範な知識とより高い画質を提供します。

トレーニング不要

フレームワークによりモデルを即座に作成でき、追加のトレーニングプロセスは不要です。

マルチエキスパート知識融合

複数の微調整済みエキスパートの知識を活用し、画像の忠実度と指示追従性を向上させます。

モデル能力

テキストから画像生成

超現実的な画像生成

高品質画像生成

使用事例

クリエイティブデザイン

アート創作

宇宙キャンバス、オレンジ色の都市背景など、芸術的な画像を生成します。

高品質で超現実的な画像出力。

広告デザイン

製品展示、シーン渲染など、広告用に適した画像を生成します。

高精細で商業ニーズに合致した画像。

エンターテインメント

ゲーム素材生成

ゲームキャラクター、シーンなどの素材を生成します。

多様なゲーム素材で、ゲームの視覚効果を向上させます。

🚀 SegMoE-2x1-v0: Segmind Mixture of Diffusion Experts

SegMoE-2x1-v0は、2つのExpert SDXLモデルからsegmoeを使用して生成された、未学習のSegmind Mixture of Diffusion Expertsモデルです。SegMoEは、学習することなく数分でStable Diffusionモデルを動的にMixture of Expertsに結合する強力なフレームワークです。このフレームワークにより、より大きな知識、より良い忠実度、およびより良い画像品質を提供する大規模なモデルを即座に作成することができます。

image/png

🚀 クイックスタート

このモデルは、segmoeライブラリを介して使用することができます。

まず、以下のコマンドを実行してsegmoeをインストールしてください。

pip install segmoe

基本的な使用法

from segmoe import SegMoEPipeline

pipeline = SegMoEPipeline("segmind/SegMoE-2x1-v0", device = "cuda")

prompt = "cosmic canvas, orange city background, painting of a chubby cat"
negative_prompt = "nsfw, bad quality, worse quality"
img = pipeline(
    prompt=prompt,
    negative_prompt=negative_prompt,
    height=1024,
    width=1024,
    num_inference_steps=25,
    guidance_scale=7.5,
).images[0]
img.save("image.png")

image/png

設定

このモデルを作成するために使用された設定は次のとおりです。

base_model: SG161222/RealVisXL_V3.0
num_experts: 2
moe_layers: all
num_experts_per_tok: 1
experts:
  - source_model: frankjoshua/juggernautXL_v8Rundiffusion
    positive_prompt: "aesthetic, cinematic, hands, portrait, photo, illustration, 8K, hyperdetailed, origami, man, woman, supercar"
    negative_prompt: "(worst quality, low quality, normal quality, lowres, low details, oversaturated, undersaturated, overexposed, underexposed, grayscale, bw, bad photo, bad photography, bad art:1.4), (watermark, signature, text font, username, error, logo, words, letters, digits, autograph, trademark, name:1.2), (blur, blurry, grainy), morbid, ugly, asymmetrical, mutated malformed, mutilated, poorly lit, bad shadow, draft, cropped, out of frame, cut off, censored, jpeg artifacts, out of focus, glitch, duplicate, (airbrushed, cartoon, anime, semi-realistic, cgi, render, blender, digital art, manga, amateur:1.3), (3D ,3D Game, 3D Game Scene, 3D Character:1.1), (bad hands, bad anatomy, bad body, bad face, bad teeth, bad arms, bad legs, deformities:1.3)"
  - source_model: SG161222/RealVisXL_V3.0
    positive_prompt: "cinematic, portrait, photograph, instagram, fashion, movie, macro shot, 8K, RAW, hyperrealistic, ultra realistic,"
    negative_prompt: "(octane render, render, drawing, anime, bad photo, bad photography:1.3), (worst quality, low quality, blurry:1.2), (bad teeth, deformed teeth, deformed lips), (bad anatomy, bad proportions:1.1), (deformed iris, deformed pupils), (deformed eyes, bad eyes), (deformed face, ugly face, bad face), (deformed hands, bad hands, fused fingers), morbid, mutilated, mutation, disfigured"

その他のバリアント

Hugging Face上で3つのマージモデルをリリースしています。

SegMoE 4x2 は4つのエキスパートモデルを持っています。
SegMoE SD 4x2 は4つのStable Diffusion 1.5エキスパートモデルを持っています。

比較

以下の画像に示すように、プロンプトの理解度が向上していることがわかります。左から右へ、SegMoE-2x1-v0、SegMoE-4x2-v0、ベースモデル (RealVisXL_V3.0) です。

three green glass bottles

panda bear with aviator glasses on its head

the statue of Liberty next to the Washington Monument

モデルの説明

属性	详情
開発者	Segmind
開発者名	Yatharth Gupta と Vishnu Jaddipal
モデルタイプ	拡散ベースのテキストから画像生成のMixture of Expertsモデル
ライセンス	Apache 2.0

適用範囲外の使用

SegMoE-2x1-v0モデルは、人物、イベント、または現実世界の情報の事実的または正確な表現を作成するのに適していません。高精度と正確性を必要とするタスクには意図されていません。

✨ 主な機能

複数の微調整されたエキスパートの知識を活用
学習不要
データへの適応性が高い
より良い微調整モデルをエキスパートの1つとして使用することで、モデルをアップグレードできる

🔧 技術的な制限

モデルは画像の忠実度と忠実度を向上させますが、学習なしではいずれかのエキスパートよりも大幅に優れるわけではなく、エキスパートの知識に依存しています。
速度に関してはまだ最適化されていません。
フレームワークのメモリ使用量はまだ最適化されていません。

📄 ライセンス

このモデルはApache 2.0ライセンスの下で提供されています。

引用

@misc{segmoe,
  author = {Yatharth Gupta, Vishnu V Jaddipal, Harish Prabhala},
  title = {SegMoE},
  year = {2024},
  publisher = {HuggingFace},
  journal = {HuggingFace Models},
  howpublished = {\url{https://huggingface.co/segmind/SegMoE-2x1-v0}}
}