高分辨率處理

# 高分辨率處理

Webssl Dino7b Full8b 378

基於80億無語言標註網絡圖像訓練的70億參數視覺Transformer模型，通過自監督學習實現卓越的視覺表徵能力

Auramask Ensemble Poprocket

該模型使用改進的vnet架構進行圖像到圖像處理，支持對抗性、美學和質量增強等任務

Auramask Ensemble Moon

該模型使用改進的vnet架構進行2D圖像處理，專注於圖像到圖像的轉換任務，具有對抗性和美學優化特性。

C-RADIOv2是NVIDIA開發的視覺特徵提取模型，提供多種規格版本，適用於圖像理解和密集處理任務。

C-RADIOv2是NVIDIA開發的視覺特徵提取模型，提供多種尺寸版本，適用於圖像理解和密集視覺任務。

Aimv2 3b Patch14 448.apple Pt

AIM-v2是一個基於timm庫的圖像編碼器模型，具有3B參數規模，適用於圖像特徵提取任務。

Aimv2 3b Patch14 336.apple Pt

AIM-v2是一個基於timm庫的圖像編碼器模型，適用於圖像特徵提取任務。

Resnet50x64 Clip Gap.openai

基於ResNet50架構的CLIP模型圖像編碼器，具有64倍寬度擴展，使用全局平均池化(GAP)策略

Resnet50x16 Clip Gap.openai

基於CLIP框架的ResNet50x16變體模型，專注於圖像特徵提取

Vit Huge Patch14 Clip 224.dfn5b

基於CLIP架構的ViT-Huge圖像編碼器，由蘋果公司發佈的DFN5B-CLIP模型，適用於視覺特徵提取任務。

Vit So400m Patch14 Siglip Gap 896.pali Pt

基於SigLIP圖像編碼器的視覺模型，採用全局平均池化，是PaliGemma項目的一部分

文本生成圖像

Vit So400m Patch14 Siglip Gap 384.webli

基於SigLIP的視覺Transformer模型，採用全局平均池化處理圖像特徵

Vit Base Patch16 Siglip 512.webli

基於SigLIP架構的視覺Transformer模型，僅包含圖像編碼器部分，採用原始注意力池化機制

Vit Base Patch16 Siglip 256.webli I18n

基於SigLIP的ViT-B-16視覺Transformer模型，僅包含圖像編碼器，採用原始注意力池化

Convnext Large Mlp.clip Laion2b Ft Soup 320

基於CLIP架構的ConvNeXt-Large圖像編碼器，在LAION-2B數據集上微調，支持320x320分辨率圖像特徵提取

Mini InternVL2 1B DA DriveLM

Mini-InternVL2-DA-RS是針對遙感圖像領域優化的多模態模型，基於Mini-InternVL架構，通過領域適配框架微調，在遙感圖像理解任務上表現優異。

圖像生成文本

Transformers 其他

Coreml DepthPro

DepthPro 是一種單目深度估計模型，能夠通過單張圖像預測深度。

Timesformer Hr Finetuned K600

TimeSformer-HR 是一個基於視頻的動作識別模型，專門針對高分辨率視頻進行了優化，並在 Kinetics-600 數據集上進行了微調。

Dust3r ViTLarge BaseDecoder 512 Dpt

DUSt3R是一個用於從圖像輕鬆實現幾何3D視覺的模型，能夠從單張或多張圖像重建3D場景。

NVIDIA開發的視覺特徵提取模型，用於生成圖像嵌入，支持下游任務如圖像分類。

基於Vision Transformer架構的大規模視覺語言模型，支持零樣本圖像分類任務

該模型是基於Facebook ConvNeXtV2架構的微調版本，專門針對Pixiv排行榜圖像進行多標籤分類任務訓練

Aesthetic Shadow

美學陰影是一款擁有11億參數的視覺Transformer模型，專為評估動漫圖像質量而設計。

Segformer B4 City Satellite Segmentation 1024x1024

基於SegFormer架構的衛星圖像分割模型，專為城市區域分割任務設計

Eva02 Enormous Patch14 Clip 224.laion2b S4b B115k

基於EVA02架構的大規模視覺-語言模型，支持零樣本圖像分類任務

文本生成圖像

Eva02 Large Patch14 Clip 336.merged2b S6b B61k

EVA02是一個基於CLIP架構的大規模視覺-語言模型，支持零樣本圖像分類任務。

文本生成圖像

Efficientnet B6

EfficientNet是一款移動端友好的純卷積模型，通過複合係數統一縮放深度/寬度/分辨率維度，在ImageNet-1k數據集上訓練

Convnextv2 Huge.fcmae

基於ConvNeXt-V2的自監督特徵表示模型，採用全卷積掩碼自編碼器框架(FCMAE)進行預訓練，適用於圖像分類和特徵提取任務。

Timesformer Hr Finetuned Ssv2

TimeSformer是一個基於時空注意力機制的視頻分類模型，在Something Something v2數據集上進行了微調。

Timesformer Hr Finetuned K600

TimeSformer是一種基於時空注意力機制的視頻理解模型，高分辨率變體專門針對Kinetics-600數據集進行了微調。

Timesformer Hr Finetuned Ssv2

TimeSformer是基於空間-時間注意力機制的視頻理解模型，該版本是在Something Something v2數據集上微調的高分辨率變體。

Timesformer Hr Finetuned K400

TimeSformer是一種基於空間-時間注意力機制的視頻理解模型，在Kinetics-400數據集上進行了預訓練和微調。

Vit Large Patch16 224

基於Transformer架構的大規模圖像分類模型，在ImageNet-21k和ImageNet-1k數據集上預訓練和微調

Segformer B0 Finetuned Cityscapes 640 1280

SegFormer是一個基於Transformer架構的語義分割模型，在Cityscapes數據集上進行了微調，適用於道路場景分割任務。

Beit Base Finetuned Ade 640 640

BEiT是一種基於視覺Transformer（ViT）架構的模型，通過自監督學習在ImageNet-21k上預訓練，並在ADE20k數據集上微調，專門用於圖像語義分割任務。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase