Vit Base Patch16 Siglip 256.webli I18n
SigLIPベースのViT-B-16視覚Transformerモデル、画像エンコーダーのみを含み、オリジナルアテンションプーリングを採用
ダウンロード数 16
リリース時間 : 12/24/2024
モデル概要
このモデルは画像特徴抽出専用の視覚Transformerモデルで、SigLIP(Sigmoid Loss for Language-Image Pre-training)手法で訓練され、多言語シナリオでの視覚タスクに適しています。
モデル特徴
SigLIP訓練手法
Sigmoid Lossを使用した言語-画像事前学習により、マルチモーダルタスクでの性能が向上
オリジナルアテンションプーリング
追加のプーリング層を導入せず、オリジナルのアテンション機構を特徴プーリングに保持
多言語サポート
多言語シナリオを考慮したモデル訓練で、国際化アプリケーションに適応
効率的な画像エンコーディング
ViTアーキテクチャに基づき、画像特徴を効率的に抽出可能
モデル能力
画像特徴抽出
視覚表現学習
マルチモーダルタスクサポート
使用事例
コンピュータビジョン
画像分類
画像分類タスクの基礎特徴抽出器として使用可能
視覚検索
視覚検索エンジンの特徴抽出コンポーネント構築に使用
マルチモーダルアプリケーション
画像テキストマッチング
テキストモデルと連携して画像テキストマッチングタスクを実現
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98