L

LVM Ckpts

Emma02によって開発
LVMは革新的な視覚事前学習モデルで、視覚データを視覚文に変換し自己回帰的に予測することで、大規模な視覚学習を実現しています。
ダウンロード数 247
リリース時間 : 6/13/2024

モデル概要

LVMは視覚事前学習モデルで、様々な視覚データを視覚文に変換し、自己回帰的に次のトークンを予測することで大規模な視覚学習を実現します。このモデルはGPUとTPUハードウェアプラットフォームに対応しています。

モデル特徴

視覚シーケンスモデリング
視覚データを視覚文シーケンスに変換する革新的なアプローチで、自己回帰的予測を実現
大規模トレーニング
厳選された12億画像データセットを使用してトレーニング
ハードウェア互換性
GPUとTPUハードウェアプラットフォームの両方をサポート
パラメータ規模
今回リリースの70億パラメータ版は、元の論文の30億パラメータから大幅に向上

モデル能力

画像シーケンスモデリング
視覚トークン予測
大規模視覚学習

使用事例

コンピュータビジョン
視覚コンテンツ生成
視覚シーケンスに基づく自己回帰的予測能力は画像生成タスクに活用可能
視覚理解
大規模事前学習モデルは様々な視覚理解タスクの性能向上に利用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase