Clip Finetuned Csu P14 336 E3l57 L

C

Clip Finetuned Csu P14 336 E3l57 L

由kevinoli開發

該模型是基於openai/clip-vit-large-patch14-336微調的版本，主要用於圖像-文本匹配任務。

文本生成圖像

#CLIP微調模型 #視覺-語言對齊 #多模態理解

下載量 31

發布時間 : 8/21/2024

模型概述

基於CLIP架構的視覺-語言模型，經過微調後可用於圖像分類、圖像檢索等跨模態任務。

模型特點

跨模態理解

能夠同時處理視覺和文本信息，建立兩者之間的語義關聯

高分辨率處理

支持336x336像素的輸入分辨率，比標準CLIP模型更高

微調優化

在特定數據集上進行了3輪微調，驗證損失降至0.47

模型能力

圖像-文本匹配

零樣本圖像分類

跨模態檢索

圖像特徵提取

使用案例

內容檢索

基於文本的圖像搜索

使用自然語言描述檢索相關圖像

內容審核

違規內容檢測

通過文本描述檢測不符合規定的圖像內容

🚀 clip-finetuned-csu-p14-336-e3l57-l

該模型是 openai/clip-vit-large-patch14-336 在未知數據集上的微調版本，在評估集上損失為 0.4700。

🚀 快速開始

本模型是 openai/clip-vit-large-patch14-336 在未知數據集上的微調版本。它在評估集上取得了以下結果：

損失：0.4700

📚 詳細文檔

模型描述

更多信息待補充。

預期用途和限制

更多信息待補充。

訓練和評估數據

更多信息待補充。

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率：5e-07
訓練批次大小：128
評估批次大小：8
隨機種子：42
優化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型：線性
訓練輪數：3.0

訓練結果

訓練損失	輪數	步數	驗證損失
0.3812	0.0533	500	1.1163
0.2683	0.1067	1000	0.9684
0.2119	0.1600	1500	0.9100
0.1889	0.2133	2000	0.8620
0.2071	0.2666	2500	0.7918
0.1588	0.3200	3000	0.7657
0.1718	0.3733	3500	0.7610
0.1113	0.4266	4000	0.7458
0.1313	0.4799	4500	0.7168
0.1649	0.5333	5000	0.7019
0.1245	0.5866	5500	0.6812
0.1286	0.6399	6000	0.6502
0.1076	0.6933	6500	0.6154
0.1477	0.7466	7000	0.6118
0.1315	0.7999	7500	0.6016
0.1413	0.8532	8000	0.5849
0.124	0.9066	8500	0.5766
0.1215	0.9599	9000	0.5559
0.131	1.0132	9500	0.5633
0.0348	1.0666	10000	0.5531
0.0687	1.1199	10500	0.5495
0.0749	1.1732	11000	0.5474
0.1083	1.2265	11500	0.5416
0.0485	1.2799	12000	0.5412
0.0449	1.3332	12500	0.5511
0.0847	1.3865	13000	0.5492
0.0702	1.4398	13500	0.5509
0.0487	1.4932	14000	0.5447
0.072	1.5465	14500	0.5490
0.0325	1.5998	15000	0.5443
0.0894	1.6532	15500	0.5264
0.0503	1.7065	16000	0.5209
0.0568	1.7598	16500	0.5083
0.0589	1.8131	17000	0.5093
0.0892	1.8665	17500	0.4983
0.0584	1.9198	18000	0.4886
0.063	1.9731	18500	0.4945
0.0493	2.0265	19000	0.4956
0.0246	2.0798	19500	0.4871
0.0385	2.1331	20000	0.4830
0.0574	2.1864	20500	0.4849
0.039	2.2398	21000	0.4872
0.0653	2.2931	21500	0.4838
0.0325	2.3464	22000	0.4876
0.0578	2.3997	22500	0.4870
0.039	2.4531	23000	0.4805
0.0536	2.5064	23500	0.4824
0.0382	2.5597	24000	0.4809
0.0479	2.6131	24500	0.4749
0.0268	2.6664	25000	0.4723
0.0406	2.7197	25500	0.4743
0.0349	2.7730	26000	0.4718
0.017	2.8264	26500	0.4721
0.0286	2.8797	27000	0.4709
0.0265	2.9330	27500	0.4708
0.0552	2.9863	28000	0.4700

框架版本

Transformers 4.45.0.dev0
Pytorch 1.12.1
Datasets 2.21.0
Tokenizers 0.19.1

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase