零樣本遷移學習

# 零樣本遷移學習

Openvision Vit Huge Patch14 224

OpenVision是一個全開放、高性價比的先進視覺編碼器家族，專注於多模態學習。

多模態融合

Florence 2 Large DOTA V1.0 Lmmrotate

LMMRotate是一個針對旋轉目標檢測任務微調的大型多模態語言模型，特別適用於航拍圖像分析。

圖像生成文本

TensorBoard 英語

Aimv2 3b Patch14 224.apple Pt

AIM-v2是一個高效的圖像編碼器模型，兼容timm框架，適用於計算機視覺任務。

Paligemma2 10b Pt 896

PaliGemma 2是Google推出的視覺語言模型(VLM)，融合Gemma 2能力，支持圖像和文本輸入生成文本輸出

圖像生成文本

Paligemma2 10b Pt 448

PaliGemma 2是Google推出的升級版視覺語言模型(VLM)，融合Gemma 2能力，支持圖像和文本輸入生成文本輸出。

圖像生成文本

Paligemma2 3b Pt 448

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

圖像生成文本

Aimv2 Large Patch14 336 Distilled

AIMv2是基於多模態自迴歸目標預訓練的視覺模型系列，在多模態理解基準測試中表現優異

Ssast Small Patch Audioset 16 16

基於AudioSet和Librispeech預訓練的音頻分類模型，採用視覺變換器架構處理音頻頻譜圖

基於OpenAI的ViT-L-14模型，使用PMC_OA_beta和roco數據集進行微調的視覺語言模型，專注於生物醫學領域的文本到圖像任務

文本生成圖像英語

Segformer B0 Finetuned Food

基於 Transformers 庫的圖像分割模型，支持多種圖像分割任務。

Transformers 英語

Autotrain Vision Tcg 40463105224

這是一個通過AutoTrain訓練的多類別圖像分類模型，在驗證集上表現出色，所有評估指標均達到1.0。

BLOOMZ-7B1 是一個多語言、多任務的大規模語言模型，支持超過40種語言和多種編程語言，適用於文本生成、情感分析等多種自然語言處理任務。

大型語言模型

Transformers 支持多種語言

mT5是T5模型的多語言變體，支持101種語言，基於mC4語料庫進行預訓練，適用於多語言文本生成和理解任務。

大型語言模型支持多種語言

Wav2vec2 Lv 60 Espeak Cv Ft

該模型是基於Wav2Vec2-Large-LV60預訓練模型，在CommonVoice數據集上進行微調，用於多語言音素識別。

Transformers 其他

Wav2vec2 Xlsr 53 Espeak Cv Ft

該模型是基於wav2vec2-large-xlsr-53預訓練模型在CommonVoice數據集上微調的多語言音素識別模型，支持多種語言的音素標籤識別。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase