零樣本圖像分類

# 零樣本圖像分類

FG-CLIP是一個細粒度視覺與文本對齊模型，通過兩階段訓練實現全局和區域級別的圖像-文本對齊。

文本生成圖像

Transformers 英語

Openvision Vit Base Patch16 224

OpenVision是一個全開放、高性價比的先進視覺編碼器家族，專注於多模態學習。

多模態融合

Openvision Vit Large Patch14 224

OpenVision 是一個全開放、高性價比的先進視覺編碼器家族，專注於多模態學習。

多模態融合

OPENCLIP SigLIP Tiny 14 Distill SigLIP 400m Cc9m

一個基於SigLIP架構的輕量級視覺語言模型，通過蒸餾技術從更大的SigLIP-400m模型中提取知識，適用於零樣本圖像分類任務。

Clip Backdoor Vit B16 Cc3m Blto Cifar

這是一個用於研究對比語言圖像預訓練中後門樣本檢測的預訓練模型，包含特定的後門觸發器BLTO。

文本生成圖像英語

Vit Gopt 16 SigLIP2 384

基於WebLI數據集訓練的SigLIP 2視覺語言模型，支持零樣本圖像分類

文本生成圖像

Vit Gopt 16 SigLIP2 256

基於WebLI數據集訓練的SigLIP 2視覺語言模型，適用於零樣本圖像分類任務。

文本生成圖像

Vit SO400M 16 SigLIP2 512

基於WebLI數據集訓練的SigLIP 2視覺語言模型，適用於零樣本圖像分類任務

文本生成圖像

Vit SO400M 16 SigLIP2 384

基於WebLI數據集訓練的SigLIP 2視覺語言模型，支持零樣本圖像分類任務。

文本生成圖像

Vit SO400M 16 SigLIP2 256

基於WebLI數據集訓練的SigLIP 2視覺語言模型，支持零樣本圖像分類

文本生成圖像

Vit SO400M 14 SigLIP2 378

基於WebLI數據集訓練的SigLIP 2視覺語言模型，支持零樣本圖像分類任務

文本生成圖像

Vit SO400M 14 SigLIP2

一個在WebLI數據集上訓練的SigLIP 2視覺語言模型，適用於零樣本圖像分類任務。

文本生成圖像

Vit L 16 SigLIP2 512

基於WebLI數據集訓練的SigLIP 2視覺語言模型，支持零樣本圖像分類任務

文本生成圖像

Vit L 16 SigLIP2 384

一個在WebLI數據集上訓練的SigLIP 2視覺語言模型，適用於零樣本圖像分類任務。

文本生成圖像

Vit L 16 SigLIP2 256

基於WebLI數據集訓練的SigLIP 2視覺語言模型，支持零樣本圖像分類

文本生成圖像

Vit B 16 SigLIP2 512

基於WebLI數據集訓練的SigLIP 2視覺語言模型，支持零樣本圖像分類任務

文本生成圖像

Vit B 16 SigLIP2 384

基於WebLI數據集訓練的SigLIP 2視覺語言模型，適用於零樣本圖像分類任務

文本生成圖像

Vit B 16 SigLIP2

基於WebLI數據集訓練的SigLIP 2視覺語言模型，適用於零樣本圖像分類任務。

文本生成圖像

Vit B 32 SigLIP2 256

基於WebLI數據集訓練的SigLIP 2視覺語言模型，支持零樣本圖像分類任務

文本生成圖像

Vit B 16 SigLIP2 256

基於WebLI數據集訓練的SigLIP 2視覺語言模型，支持零樣本圖像分類任務

文本生成圖像

Siglip2 So400m Patch16 Naflex

SigLIP 2 是基於 SigLIP 預訓練目標的改進模型，整合了多項技術以提升語義理解、定位和密集特徵提取能力。

文本生成圖像

Siglip2 Base Patch16 Naflex

SigLIP 2 是一個多語言視覺-語言編碼器，整合了SigLIP的預訓練目標並增加了新的訓練方案，提升了語義理解、定位和密集特徵提取能力。

文本生成圖像

Siglip2 So400m Patch16 512

SigLIP 2 是基於 SigLIP 的視覺語言模型，增強了語義理解、定位和密集特徵提取能力。

文本生成圖像

Siglip2 So400m Patch16 384

SigLIP 2 是基於 SigLIP 預訓練目標的改進模型，整合了多項技術以提升語義理解、定位和密集特徵提取能力。

文本生成圖像

Siglip2 So400m Patch16 256

SigLIP 2 是基於 SigLIP 的改進模型，整合了多項技術以提升語義理解、定位和密集特徵提取能力。

文本生成圖像

Siglip2 So400m Patch14 384

SigLIP 2 是基於 SigLIP 預訓練目標的視覺語言模型，整合了多項技術以提升語義理解、定位和密集特徵提取能力。

圖像生成文本

Siglip2 So400m Patch14 224

SigLIP 2 是基於 SigLIP 改進的多語言視覺語言編碼器，增強了語義理解、定位和密集特徵提取能力。

圖像生成文本

Siglip2 Giant Opt Patch16 384

SigLIP 2 是基於 SigLIP 預訓練目標的改進模型，整合了多項技術以提升語義理解、定位和密集特徵提取能力。

文本生成圖像

Siglip2 Giant Opt Patch16 256

SigLIP 2 是一個先進的視覺語言模型，整合了多項技術以提升語義理解、定位和密集特徵提取能力。

文本生成圖像

Siglip2 Large Patch16 512

SigLIP 2 是基於 SigLIP 的改進模型，整合了多項技術以提升語義理解、定位和密集特徵提取能力。

文本生成圖像

Siglip2 Large Patch16 384

SigLIP 2 是在 SigLIP 基礎上改進的多語言視覺語言編碼器，提升了語義理解、定位和密集特徵提取能力。

文本生成圖像

Siglip2 Large Patch16 256

SigLIP 2 是基於 SigLIP 改進的視覺語言模型，整合了多項技術以提升語義理解、定位和密集特徵提取能力。

文本生成圖像

Siglip2 Base Patch16 512

SigLIP 2 是一個視覺語言模型，整合了多項技術以提升語義理解、定位和密集特徵提取能力。

文本生成圖像

Siglip2 Base Patch16 384

SigLIP 2 是基於 SigLIP 的視覺語言模型，通過統一訓練方案提升了語義理解、定位和密集特徵提取能力。

圖像生成文本

Siglip2 Base Patch16 256

SigLIP 2是一個多語言視覺語言編碼器，改進了語義理解、定位和密集特徵提取能力。

圖像生成文本

Siglip2 Base Patch16 224

SigLIP 2是基於SigLIP改進的多語言視覺語言編碼器，增強了語義理解、定位和密集特徵提取能力。

圖像生成文本

Siglip2 Base Patch32 256

SigLIP 2 是基於 SigLIP 的改進版本，整合了多項技術以提升語義理解、定位和密集特徵提取能力。

文本生成圖像

Mme5 Mllama 11b Instruct

mmE5是基於Llama-3.2-11B-Vision訓練的多模態多語言嵌入模型，通過高質量合成數據改進嵌入性能，在MMEB基準測試中達到最先進水平。

多模態融合

Transformers 支持多種語言

CLIP ViT H 14 Laion2b S32b B79k

這是一個基於OpenCLIP框架、在LAION-2B英語子集上訓練的視覺語言模型，擅長零樣本圖像分類和跨模態檢索任務。

文本生成圖像

CLIP ViT B 32 Laion2b S34b B79k

基於OpenCLIP框架在LAION-2B英語數據集上訓練的視覺-語言模型，支持零樣本圖像分類和跨模態檢索

文本生成圖像

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase