圖像文本匹配

# 圖像文本匹配

基於CLIP-ViT-B/32微調的視覺語言模型，適用於圖像-文本匹配任務

文本生成圖像

Sail Clip Hendrix 10epochs

基於openai/clip-vit-large-patch14微調的視覺語言模型，經過10個epoch的訓練

文本生成圖像

MEXMA-SigLIP2是一個結合了MEXMA多語言文本編碼器和SigLIP2圖像編碼器的高性能CLIP模型，支持80種語言。

文本生成圖像支持多種語言

Clip Vit Tiny Random Patch14 336

這是一個用於調試的小型CLIP模型，基於ViT架構，隨機初始化權重。

文本生成圖像

Longclip GmP ViT L 14

基於BeichenZhang/LongCLIP-L微調的CLIP模型，支持長文本輸入（248詞符），採用幾何參數化(GmP)技術提升性能

文本生成圖像

基於Vision Transformer架構的大規模視覺語言模型，支持圖像與文本的跨模態理解

文本生成圖像

Vilt Finetuned 200

基於ViLT架構的視覺語言模型，在特定任務上進行了微調

文本生成圖像

Clip Vit Large Patch14

OpenAI 開源的 CLIP 模型，基於 Vision Transformer (ViT) 架構，支持圖像和文本的聯合理解。

文本生成圖像

CLIP Giga Config Fixed

基於LAION-2B數據集訓練的CLIP大模型，採用ViT-bigG-14架構，支持圖文跨模態理解

文本生成圖像

Japanese Cloob Vit B 16

由rinna株式會社訓練的日語CLOOB（對比留一增強）模型，用於圖像與文本的跨模態理解

文本生成圖像

Transformers 日語

Clip Vit Large Patch14 336

基於Vision Transformer架構的大規模視覺語言預訓練模型，支持圖像與文本的跨模態理解

文本生成圖像

Clip Vit B 32 Japanese V1

這是一個適用於日語的CLIP文本/圖像編碼器模型，通過蒸餾技術將英語版CLIP模型轉換為日語版本。

文本生成圖像

Transformers 日語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase