Liquid_V1_7Bオープンソースモデル - 画像コードとテキストマークの融合を実現し、ビジュアル理解と生成を支援

ホーム

Liquid V1 7B

Junfeng5によって開発

Liquidは自己回帰生成パラダイムであり、画像を離散コードにトークン化し、共有特徴空間でこれらのコード埋め込みとテキストトークンを学習することで、視覚的理解と生成のシームレスな融合を実現しました。

テキスト生成画像

Transformers

英語オープンソースライセンス:MIT #マルチモーダル生成 #自己回帰モデル #画像テキスト融合

ダウンロード数 11.35k

リリース時間 : 2/21/2025

モデル概要

Liquidは革新的なマルチモーダル大規模言語モデル（MLLM）であり、単一の大規模言語モデル（LLM）のみを使用して視覚とテキストのシームレスな融合を実現し、外部で事前学習された視覚埋め込みに依存する必要がありません。

モデル特徴

単一モデルマルチモーダル融合

単一の大規模言語モデル（LLM）のみを使用して視覚とテキストのシームレスな融合を実現し、外部で事前学習された視覚埋め込みに依存する必要がありません。

自己回帰生成パラダイム

画像を離散コードにトークン化し、共有特徴空間でこれらのコード埋め込みとテキストトークンを学習します。

マルチスケールバリアント

6つのパラメータサイズの事前学習バージョン（0.5Bから32B）とGEMMAベースの7B命令調整バージョンを提供します。

理解と生成の相互促進

マルチモーダルハイブリッドモデルの拡張法則を探求し、理解タスクと生成タスクの間の相互促進現象を発見しました。

モデル能力

テキスト生成

画像生成

視覚的理解

マルチモーダル融合

使用事例

コンテンツ作成

マルチモーダルコンテンツ生成

テキスト記述に基づいて画像を生成したり、画像に基づいて記述テキストを生成します。

テキストと画像間のシームレスな変換を実現します。

教育

インタラクティブラーニングツール

マルチモーダルインタラクションを通じて学生が複雑な概念を理解するのを支援します。

学習体験と理解効果を向上させます。

🚀 Liquid

Liquidは、画像を離散コードにトークン化し、これらのコード埋め込みをテキストトークンとともに視覚と言語の共有特徴空間で学習することで、視覚理解と生成をシームレスに統合する自己回帰型生成パラダイムです。

🚀 クイックスタート

Liquidは、既存の大規模言語モデル（LLM）を拡張した自己回帰型モデルで、トランスフォーマーアーキテクチャを使用しています。このモデルは、画像とテキストを入力として受け取り、テキストまたは生成された画像を出力します。

✨ 主な機能

単一の大規模言語モデル（LLM）を使用して、視覚理解と生成を統合します。
外部の事前学習済み視覚埋め込み（CLIPなど）を必要としません。
多モーダルハイブリッドモデルのスケーリング則を探索し、理解と生成タスク間の相互促進現象を発見します。

📚 ドキュメント

モデルの詳細

Liquidは、画像を離散コードにトークン化し、これらのコード埋め込みをテキストトークンとともに視覚と言語の共有特徴空間で学習することで、視覚理解と生成をシームレスに統合する自己回帰型生成パラダイムです。これまでの多モーダル大規模言語モデル（MLLM）とは異なり、Liquidは単一の大規模言語モデル（LLM）を使用してこの統合を達成し、CLIPなどの外部の事前学習済み視覚埋め込みを必要としません。Liquidは、この多モーダルハイブリッドモデルのスケーリング則を探索し、理解と生成タスク間の相互促進現象を発見しました。

バリエーション

Liquidには、事前学習済みバリアントでは6種類のサイズ（0.5B、1B、2B、7B、9B、32Bパラメータ、多モーダルファミリーから）があり、命令微調整バリアントでは7B（GEMMAから）があります。

入力

モデルはテキストと画像を入力として受け取ります。

出力

モデルはテキストまたは生成された画像を出力します。

モデルアーキテクチャ

Liquidは、既存のLLMを拡張した自己回帰型モデルで、トランスフォーマーアーキテクチャを使用しています。

引用指示

@article{wu2024liquid,
    title={Liquid: Language Models are Scalable Multi-modal Generators},
    author={Wu, Junfeng and Jiang, Yi and Ma, Chuofan and Liu, Yuliang and Zhao, Hengshuang and Yuan, Zehuan and Bai, Song and Bai, Xiang},
    journal={arXiv preprint arXiv:2412.04332},
    year={2024}
}

📄 ライセンス

このプロジェクトはMITライセンスの下でライセンスされています。

📦 関連情報

項目	詳細
ライブラリ名	transformers
データセット	mlfoundations/dclm - baseline - 1.0、cerebras/SlimPajama - 627B、bigcode/starcoderdata、JourneyDB/JourneyDB
言語	en
ベースモデル	google/gemma - 7b
パイプラインタグ	any - to - any