V

Vit Base Patch16 Siglip 256.webli I18n

timmによって開発
SigLIPベースのViT-B-16視覚Transformerモデル、画像エンコーダーのみを含み、オリジナルアテンションプーリングを採用
ダウンロード数 16
リリース時間 : 12/24/2024

モデル概要

このモデルは画像特徴抽出専用の視覚Transformerモデルで、SigLIP(Sigmoid Loss for Language-Image Pre-training)手法で訓練され、多言語シナリオでの視覚タスクに適しています。

モデル特徴

SigLIP訓練手法
Sigmoid Lossを使用した言語-画像事前学習により、マルチモーダルタスクでの性能が向上
オリジナルアテンションプーリング
追加のプーリング層を導入せず、オリジナルのアテンション機構を特徴プーリングに保持
多言語サポート
多言語シナリオを考慮したモデル訓練で、国際化アプリケーションに適応
効率的な画像エンコーディング
ViTアーキテクチャに基づき、画像特徴を効率的に抽出可能

モデル能力

画像特徴抽出
視覚表現学習
マルチモーダルタスクサポート

使用事例

コンピュータビジョン
画像分類
画像分類タスクの基礎特徴抽出器として使用可能
視覚検索
視覚検索エンジンの特徴抽出コンポーネント構築に使用
マルチモーダルアプリケーション
画像テキストマッチング
テキストモデルと連携して画像テキストマッチングタスクを実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase