開放域識別

# 開放域識別

Internvideo2 Stage2 6B

InternVideo2是一個多模態視頻理解模型，具有6B參數規模，專注於視頻內容分析和理解任務。

視頻生成文本

Resnet101 Clip Gap.openai

基於CLIP框架的ResNet101圖像編碼器，通過全局平均池化(GAP)提取圖像特徵

Resnet50 Clip Gap.openai

基於CLIP模型視覺編碼器部分的ResNet50變體，通過全局平均池化(GAP)提取圖像特徵

Eva Giant Patch14 Clip 224.laion400m

EVA CLIP模型是基於OpenCLIP和timm框架的視覺語言模型，支持零樣本圖像分類任務。

文本生成圖像

Eva02 Enormous Patch14 Clip 224.laion2b

EVA-CLIP是一個基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務。

文本生成圖像

Eva02 Base Patch16 Clip 224.merged2b

EVA CLIP模型是基於OpenCLIP與timm框架構建的視覺語言模型，支持零樣本圖像分類等任務。

文本生成圖像

Vit Large Patch14 Clip 224.laion2b

基於CLIP架構的視覺Transformer模型，專注於圖像特徵提取

Vit Huge Patch14 Clip 224.laion2b

基於CLIP框架的ViT-Huge視覺編碼器，使用laion2B數據集訓練，支持圖像特徵提取

Vit Base Patch32 Clip 224.laion2b

基於CLIP架構的視覺Transformer模型，專為圖像特徵提取設計，使用laion2B數據集訓練

Vit Huge Patch14 Clip 224.metaclip 2pt5b

基於MetaCLIP-2.5B數據集訓練的雙用途視覺語言模型，支持零樣本圖像分類任務

Vit Large Patch14 Clip 224.metaclip 2pt5b

基於MetaCLIP-2.5B數據集訓練的雙框架兼容視覺模型，支持零樣本圖像分類任務

Vit Base Patch16 Plus Clip 240.laion400m E31

基於LAION-400M數據集訓練的視覺-語言雙用途模型，支持零樣本圖像分類任務

Vit Base Patch32 Clip 224.laion2b E16

基於LAION-2B數據集訓練的Vision Transformer模型，支持零樣本圖像分類任務

Resnet50x16 Clip.openai

基於CLIP框架的ResNet50x16視覺模型，支持零樣本圖像分類任務

Resnet50x4 Clip.openai

基於CLIP架構的ResNet50x4視覺語言模型，支持零樣本圖像分類任務

圖像生成文本

Resnet50 Clip.openai

基於ResNet50架構和CLIP技術的零樣本圖像分類模型

Vit Xsmall Patch16 Clip 224.tinyclip Yfcc15m

基於CLIP架構的小型視覺-語言模型，專為高效零樣本圖像分類設計

Vit Betwixt Patch32 Clip 224.tinyclip Laion400m

基於ViT架構的小型CLIP模型，適用於零樣本圖像分類任務，訓練於LAION-400M數據集。

Vit Medium Patch32 Clip 224.tinyclip Laion400m

基於OpenCLIP庫的視覺語言模型，支持零樣本圖像分類任務。

Vit B 16 Aion400m E32 1finetuned 1

基於OpenCLIP框架的視覺Transformer模型，針對零樣本圖像分類任務進行微調

CLIP ViT B 32 Laion2b E16

基於OpenCLIP實現的視覺-語言預訓練模型，支持零樣本圖像分類任務

文本生成圖像

CLIP ViT L 14 CommonPool.XL.laion S13b B90k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務，由laion數據集訓練

文本生成圖像

CLIP ViT L 14 CommonPool.XL S13b B90k

基於CLIP架構的視覺-語言預訓練模型，支持零樣本圖像分類和跨模態檢索任務

文本生成圖像

CLIP ViT B 16 DataComp.L S1b B8k

基於CLIP架構的零樣本圖像分類模型，使用DataComp數據集訓練，支持高效的圖像-文本匹配任務。

文本生成圖像

CLIP ViT B 16 CommonPool.L.clip S1b B8k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務

文本生成圖像

CLIP ViT B 16 CommonPool.L.laion S1b B8k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務，使用laion-s1B-b8K數據集訓練

文本生成圖像

CLIP ViT B 16 CommonPool.L.image S1b B8k

基於CLIP架構的視覺語言模型，支持零樣本圖像分類任務

文本生成圖像

CLIP ViT B 16 CommonPool.L.text S1b B8k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務

文本生成圖像

CLIP ViT B 16 CommonPool.L.basic S1b B8k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務

文本生成圖像

CLIP ViT B 16 CommonPool.L S1b B8k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務

文本生成圖像

CLIP ViT B 32 DataComp.M S128m B4k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務，使用DataComp.M數據集訓練

文本生成圖像

CLIP ViT B 32 CommonPool.M.laion S128m B4k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務

文本生成圖像

CLIP ViT B 32 CommonPool.M.image S128m B4k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務

文本生成圖像

CLIP ViT B 32 CommonPool.M.text S128m B4k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務

文本生成圖像

CLIP ViT B 32 CommonPool.M.basic S128m B4k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務。

文本生成圖像

CLIP ViT B 32 CommonPool.M S128m B4k

基於CLIP架構的零樣本圖像分類模型，支持通用視覺-語言任務

文本生成圖像

CLIP ViT B 32 DataComp.S S13m B4k

基於CLIP架構的零樣本圖像分類模型，使用DataComp數據集訓練，支持多種視覺任務。

文本生成圖像

CLIP ViT B 32 CommonPool.S.clip S13m B4k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務

文本生成圖像

CLIP ViT B 32 CommonPool.S.laion S13m B4k

基於CLIP架構的視覺語言模型，支持零樣本圖像分類任務

文本生成圖像

CLIP ViT B 32 CommonPool.S.image S13m B4k

基於CLIP架構的視覺-語言模型，支持零樣本圖像分類任務

文本生成圖像

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase