多模態模型

# 多模態模型

SpaceOm-GGUF 是一款專注於視覺問答任務的多模態模型，在空間推理方面表現出色。

文本生成圖像英語

PP-Chart2Table是由PaddlePaddle團隊開發的多模態模型，專注於中英文圖表解析，能夠高效地將圖表轉換為數據表。

圖像生成文本支持多種語言

Gemma 3 4b It Qat GGUF

Gemma 3是谷歌推出的輕量級先進開放模型系列，基於創建Gemini模型的相同研究和技術構建。該模型是多模態的，能夠處理文本和圖像輸入並生成文本輸出。

文本生成圖像英語

Qwen2 VL 7B Captioner Relaxed GGUF

該模型是基於Qwen2-VL-7B-Captioner-Relaxed轉換的GGUF格式版本，專為圖像轉文本任務優化，支持通過llama.cpp和Koboldcpp等工具運行。

圖像生成文本英語

Llm Jp Clip Vit Base Patch16

日語CLIP模型，基於OpenCLIP框架訓練，支持零樣本圖像分類任務

文本生成圖像日語

Vit GPT2 Image Captioning

基於ViT-GPT2架構的圖像描述生成模型，能夠為輸入的圖像生成自然語言描述。

圖像生成文本

Vit GPT2 Image Captioning

基於ViT-GPT2架構的圖像描述生成模型，能夠為輸入的圖像生成自然語言描述。

圖像生成文本

Florence 2 Large TableDetection

基於Florence-2模型微調的多模態表格檢測模型，能夠精準定位圖像中的表格區域

圖像生成文本

Paligemma Longprompt V1 Safetensors

實驗性視覺模型，融合關鍵詞標籤與長文本描述生成圖像提示詞

圖像生成文本

Paligemma 3b Mix 448 Ft TableDetection

基於google/paligemma-3b-mix-448微調的多模態表格檢測模型，專用於識別圖像中的表格區域

圖像生成文本

Paligemma Vqav2

該模型是基於google/paligemma-3b-pt-224在VQAv2數據集的一小部分上進行微調的版本，專注於視覺問答任務。

文本生成圖像

Paligemma Rich Captions

基於PaliGemma-3b模型在DocCI數據集上微調的圖像描述生成模型，能生成200-350字符的詳細描述文本，減少幻覺現象

圖像生成文本

Transformers 英語

Compare2Score是一個用於圖像質量評估的模型，通過特定算法為圖像提供質量評分。

CheXagent是一個專注於胸部X光解讀的基礎模型，旨在輔助醫療影像分析。

圖像生成文本

Transformers 其他

Vit Base Patch16 224 Turkish Gpt2 Medium

這是一個基於ViT和土耳其語GPT-2的視覺編碼器-解碼器模型，用於生成土耳其語的圖像描述。

圖像生成文本

Transformers 其他

Vit Medium Patch16 Clip 224.tinyclip Yfcc15m

基於ViT架構的CLIP模型，用於零樣本圖像分類任務

Xrayclip Vit L 14 Laion2b S32b B82k

CheXagent是一個專門用於胸部X光解讀的基礎模型，能夠自動分析和解釋胸部X光圖像。

圖像生成文本

Siglip Large Patch16 384

SigLIP是基於WebLi數據集預訓練的多模態模型，採用改進的Sigmoid損失函數，適用於零樣本圖像分類和圖文檢索任務。

圖像生成文本

Siglip Large Patch16 256

SigLIP是基於WebLi數據集預訓練的視覺語言模型，採用改進的sigmoid損失函數提升性能

圖像生成文本

Siglip Base Patch16 512

SigLIP是基於WebLi數據集預訓練的視覺-語言模型，採用改進的sigmoid損失函數，在圖像分類和圖文檢索任務中表現優異。

文本生成圖像

Chinese Clip Vit Large Patch14

中文CLIP模型，基於Vision Transformer架構，支持圖像與文本的跨模態理解與生成。

文本生成圖像

ChartLlama是基於LLaVA-1.5架構的多模態模型，專注於圖表理解和分析任務。

大型語言模型

Transformers 英語

Siglip Base Patch16 224

SigLIP是基於WebLi數據集預訓練的視覺語言模型，採用改進的Sigmoid損失函數，優化了圖像-文本匹配任務

圖像生成文本

Blip Image Captioning Base Test Sagemaker Tops 3

該模型是基於Salesforce的BLIP圖像描述生成基礎模型在SageMaker平臺上微調的版本，主要用於圖像描述生成任務。

圖像生成文本

Swin Aragpt2 Image Captioning V3

基於Swin Transformer和AraGPT2架構的圖像描述生成模型，能夠為輸入的圖像生成文本描述。

圖像生成文本

Saved Model Git Base

基於microsoft/git-base在圖像文件夾數據集上微調的視覺語言模型，主要用於圖像描述生成任務

圖像生成文本

Transformers 其他

Blip2 Flan T5 Xl Sharded

這是BLIP-2模型的分片版本，採用Flan T5-xl實現圖像到文本任務，如圖像描述和視覺問答。分片處理使其能在低內存環境中加載。

圖像生成文本

Transformers 英語

基於VisionEncoderDecoder架構的圖像描述生成模型，能夠將輸入圖像轉換為自然語言描述。

圖像生成文本

Clip Vit Large Patch14 Ko

基於知識蒸餾訓練的韓語CLIP模型，支持韓語和英語的多模態理解

文本生成圖像

Transformers 韓語

Layoutlmv3 Finetuned Wildreceipt

基於LayoutLMv3-base模型在WildReceipt收據數據集上微調的版本，用於收據關鍵信息提取任務

Theivaprakasham

基於ViT-GPT2架構的視覺-語言模型，用於圖像轉文本任務

圖像生成文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase