V

Vit L 16 SigLIP2 384

timmによって開発
WebLIデータセットで訓練されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています。
ダウンロード数 581
リリース時間 : 2/21/2025

モデル概要

このモデルはSigLIP 2アーキテクチャに基づく視覚言語モデルで、主にゼロショット画像分類に使用されます。画像内容を理解しテキスト記述と比較することで、特定の訓練なしで分類タスクを実現できます。

モデル特徴

シグモイド損失関数
言語画像事前学習にシグモイド損失を使用し、モデルの意味理解能力を向上させました
多言語サポート
複数言語のテキスト記述を処理可能(論文に基づく推論)
改良された意味理解
前世代モデルと比べ、意味理解と位置特定能力が大幅に向上しました
密な特徴抽出
画像の密な特徴を抽出でき、より精細な画像理解をサポートします

モデル能力

ゼロショット画像分類
画像-テキスト対比
多言語画像理解
意味特徴抽出

使用事例

画像分類
ゼロショット画像分類
特定の訓練なしで新規カテゴリの画像を分類可能
例ではベニエ餅を正確に識別できました
コンテンツ理解
画像意味分析
画像中の意味内容とオブジェクト関係を理解
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase