LVM_ckptsオープンソースの視覚プレトレーニングモデル - 無料で大規模な視覚データの学習と変換を実現

ホーム

LVM Ckpts

Emma02によって開発

LVMは革新的な視覚事前学習モデルで、視覚データを視覚文に変換し自己回帰的に予測することで、大規模な視覚学習を実現しています。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #視覚シーケンスモデリング #自己回帰的視覚生成 #マルチモーダル事前学習

ダウンロード数 247

リリース時間 : 6/13/2024

モデル概要

LVMは視覚事前学習モデルで、様々な視覚データを視覚文に変換し、自己回帰的に次のトークンを予測することで大規模な視覚学習を実現します。このモデルはGPUとTPUハードウェアプラットフォームに対応しています。

モデル特徴

視覚シーケンスモデリング

視覚データを視覚文シーケンスに変換する革新的なアプローチで、自己回帰的予測を実現

大規模トレーニング

厳選された12億画像データセットを使用してトレーニング

ハードウェア互換性

GPUとTPUハードウェアプラットフォームの両方をサポート

パラメータ規模

今回リリースの70億パラメータ版は、元の論文の30億パラメータから大幅に向上

モデル能力

画像シーケンスモデリング

視覚トークン予測

大規模視覚学習

使用事例

コンピュータビジョン

視覚コンテンツ生成

視覚シーケンスに基づく自己回帰的予測能力は画像生成タスクに活用可能

視覚理解

大規模事前学習モデルは様々な視覚理解タスクの性能向上に利用可能

🚀 LVM

このモデルは、CVPR 2024の論文「Sequential Modeling Enables Scalable Learning for Large Vision Models」(https://arxiv.org/abs/2312.00785) の実装です。LVMは、様々な種類の視覚データを視覚文に変換し、次のトークン予測を自己回帰的に行う視覚事前学習モデルです。GPUとTPUの両方に対応しています。

こちらでデモを試すことができます。LVMは、OpenLLaMA（自己回帰モデル）と OpenMuse（画像を視覚トークンに変換するVQGAN）をベースに構築されています。

このモデルはHuggingFaceと共同で学習されました。このプロジェクトでのサポートを提供してくれた Victor Sanh に感謝します。

✨ 主な機能

様々な視覚データを視覚文に変換し、次のトークン予測を自己回帰的に行う。
GPUとTPUの両方に対応。

📚 ドキュメント

原著論文バージョンとの主な違い

現在は7Bモデルをリリースしています（以前は3B）。追加のモデルサイズバリアントは近日公開予定です。
LAIONデータセットに対して深度フィルタリング（品質フィルタリング、重複排除、既知のCSAMコンテンツの削除を含む）を適用し、データセットのサイズを15億枚から12億枚に削減しました。
トークナイザーを改善し、性能を向上させました。

ライセンス

LVMはApache 2.0ライセンスの下で提供されています。

引用

もしあなたの研究やアプリケーションでLVMが役立った場合、以下のBibTeXを使用して我々の研究を引用してください。

@article{bai2023sequential,
  title={Sequential modeling enables scalable learning for large vision models},
  author={Bai, Yutong and Geng, Xinyang and Mangalam, Karttikeya and Bar, Amir and Yuille, Alan and Darrell, Trevor and Malik, Jitendra and Efros, Alexei A},
  journal={arXiv preprint arXiv:2312.00785},
  year={2023}
}