V

Vit SO400M 14 SigLIP2 378

timmによって開発
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
ダウンロード数 1,596
リリース時間 : 2/21/2025

モデル概要

これは対比型画像テキストモデルで、シグモイド損失関数を用いた事前学習を行い、改善された意味理解と位置特定能力を持ち、多言語視覚言語タスクに適しています。

モデル特徴

改善された意味理解
SigLIP 2アーキテクチャを採用し、前世代モデルに比べて優れた意味理解能力を持つ
多言語サポート
モデルは多言語視覚言語タスクをサポート
ゼロショット分類能力
微調整なしで新しい画像分類タスクに直接適用可能
シグモイド損失関数
革新的なシグモイド損失関数を使用した事前学習でモデル性能を向上

モデル能力

ゼロショット画像分類
多言語視覚言語理解
画像-テキストマッチング
意味特徴抽出

使用事例

画像理解
ゼロショット画像分類
学習なしで画像を分類
画像中の物体カテゴリを正確に識別可能
マルチモーダルアプリケーション
画像テキストマッチング
画像とテキスト記述の一致度を判断
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase