Kolors 文生图モデルがオープンソース化 - 無料で高品質な画像生成と複雑な語義の還元を実現

ホーム

Kolors

Kwai-Kolorsによって開発

可図(Kolors)はKuaishou可図チームが独自開発した大規模テキストから画像生成の潜在拡散モデルで、生成画像の視覚品質、複雑な意味の再現度、中英文字体のレンダリングなどで優れた性能を発揮します。

テキスト生成画像複数言語対応オープンソースライセンス:Apache-2.0 #超リアルなテキストから画像生成 #中英二言語対応 #高品質な画像生成

ダウンロード数 1,546

リリース時間 : 6/5/2024

モデル概要

数十億規模の画像テキストペアで訓練された可図モデルは、中英入力に対応し、中国語特有のコンテンツの理解と生成に優れています。

モデル特徴

超リアルな画像生成

生成画像の視覚品質がオープンソース及びクローズドソースモデルを大幅に上回る

複雑な意味の再現

複雑な意味記述を正確に理解し再現できる

中英対応

中国語コンテンツの理解と生成能力を特別に最適化し、英語入力もサポート

文字体レンダリング能力

中英文字体のレンダリングで優れた性能を発揮

モデル能力

テキストから画像生成

高品質画像合成

複雑なシーン理解

中英テキストレンダリング

使用事例

クリエイティブデザイン

広告クリエイティブ生成

テキスト記述に基づき迅速に広告クリエイティブ画像を生成

高品質で意味に合致した画像出力

コンセプトアート創作

ゲーム、映画などのためのコンセプトアートデザインを提供

多様なスタイルの芸術作品

コンテンツ制作

ソーシャルメディアコンテンツ

ソーシャルメディアプラットフォーム向けの魅力的なビジュアルコンテンツを生成

高いエンゲージメントを得られるビジュアルコンテンツ

教育教材

教育分野向けのイラストや教材を生成

教育概念を正確に伝える画像

🚀 Kolors: 写実的なテキストから画像合成のための拡散モデルの効果的なトレーニング

Kolorsは、快手Kolorsチームによって開発された潜在拡散ベースの大規模テキストから画像生成モデルです。数十億のテキストと画像のペアでトレーニングされ、視覚的な品質、複雑な意味の正確性、および中国語と英語の文字のテキストレンダリングにおいて、オープンソースモデルと独自モデルの両方に対して大きな優位性を示しています。さらに、Kolorsは中国語と英語の入力をサポートし、中国語固有の内容の理解と生成において強力な性能を発揮します。

📖 概要

Kolorsは、快手のKolorsチームによって開発された潜在拡散ベースの大規模テキストから画像生成モデルです。数十億のテキストと画像のペアでトレーニングされ、視覚的な品質、複雑な意味の正確性、および中国語と英語の文字のテキストレンダリングにおいて、オープンソースモデルと独自モデルの両方に対して大きな優位性を示しています。さらに、Kolorsは中国語と英語の入力をサポートし、中国語固有の内容の理解と生成において強力な性能を発揮します。詳細については、この技術レポートを参照してください。

🚀 クイックスタート

必要条件

Python 3.8以上
PyTorch 1.13.1以上
Transformers 4.26.1以上
推奨: CUDA 11.7以上

リポジトリのクローンと依存関係のインストール

apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install

重みのダウンロード（リンク）：

huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

または

git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

推論：

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图”"
# 画像は "scripts/outputs/sample_test.jpg" に保存されます

Diffusersを使用する場合

https://huggingface.co/Kwai-Kolors/Kolors-diffusers を参照してください。

📄 ライセンスと引用

ライセンス

Kolorsは学術研究用に完全にオープンソース化されています。商用利用の場合は、このアンケートに記入し、kwai-kolors@kuaishou.com に送信して登録してください。

私たちは、オープンソースコミュニティと協力して大規模テキストから画像モデルの開発を促進するためにKolorsをオープンソース化しています。このプロジェクトのコードはApache-2.0ライセンスの下でオープンソース化されています。すべての開発者とユーザーに、オープンソースライセンスを厳格に遵守し、オープンソースモデル、コード、およびその派生物を、国や社会に害を及ぼす可能性のある目的や、安全について評価および登録されていないサービスに使用しないよう強く促します。トレーニング中にデータの遵守、正確性、および安全性を確保するために最善を尽くしていますが、生成されるコンテンツの多様性と組み合わせ可能性、およびモデルに影響を与える確率的なランダム性のため、出力コンテンツの正確性と安全性を保証することはできません。また、モデルは誤解されやすいです。このプロジェクトは、オープンソースモデルとコードの使用によって生じる、データセキュリティ問題、世論リスク、またはモデルが誤解され、乱用され、誤用され、または不適切に利用されることに起因するリスクと責任について、一切の法的責任を負いません。

引用

もし私たちの研究が役に立った場合は、引用してください！

@article{kolors,
  title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
  author={Kolors Team},
  journal={arXiv preprint},
  year={2024}
}