視覺語言理解

# 視覺語言理解

Blip Arabic Flickr 8k

基於BLIP架構微調的阿拉伯語圖像字幕生成模型，專門針對Flickr8k阿拉伯語數據集優化

圖像生成文本

Transformers 支持多種語言

Skywork VL Reward 7B

Skywork-VL-Reward-7B是一個7B參數的多模態獎勵模型，基於Qwen2.5-VL-7B-Instruct架構，增加了用於訓練獎勵模型的價值頭結構。

多模態融合

Skywork R1V2 38B

天工-R1V2-38B是當前最先進的開源多模態推理模型，在多項基準測試中表現卓越，具備強大的視覺推理與文本理解能力。

圖像生成文本

Emova Qwen 2 5 3b

EMOVA是一種端到端全能模態大語言模型，支持視覺、聽覺和語音功能，能夠生成具有情感控制的文本和語音響應。

多模態融合

Transformers 支持多種語言

Gemma 3 4b It Qat GGUF

Gemma 3是谷歌推出的輕量級先進開放模型系列，基於創建Gemini模型的相同研究和技術構建。該模型是多模態的，能夠處理文本和圖像輸入並生成文本輸出。

文本生成圖像英語

VL Rethinker 7B Mlx 4bit

VL-Rethinker-7B 4位MLX量化版是基於TIGER-Lab/VL-Rethinker-7B模型的量化版本，專為蘋果設備優化，支持視覺問答任務。

文本生成圖像英語

Llama 3.2 11B Vision Radiology Mini

這是一個基於Llama架構的多模態模型，支持視覺和文本指令，經過4位量化優化。

圖像生成文本

Internvl3 78B Pretrained

InternVL3-78B是OpenGVLab推出的先進多模態大語言模型，展現卓越的綜合性能。相比前代InternVL 2.5，具備更強大的多模態感知與推理能力，並將能力拓展至工具使用、GUI代理、工業圖像分析、3D視覺感知等新領域。

文本生成圖像

Transformers 其他

VL Rethinker 7B Fp16

該模型是基於Qwen2.5-VL-7B-Instruct轉換而來的多模態視覺語言模型，支持視覺問答任務。

文本生成圖像

Transformers 英語

VL Rethinker 72B 4bit

VL-Rethinker-72B-4bit是一個基於Qwen2.5-VL-7B-Instruct的多模態模型，支持視覺問答任務，已轉換為MLX格式以便在蘋果設備上高效運行。

文本生成圖像

Transformers 英語

Qwen2.5 VL 7B Instruct Gptqmodel Int8

基於Qwen2.5-VL-7B-Instruct模型進行GPTQ-INT8量化的視覺語言模型

圖像生成文本

Transformers 支持多種語言

Llama 4 Maverick 17B 128E Instruct 6bit

基於Meta Llama 4模型轉換的6位量化版本，支持多語言指令交互

大型語言模型

Transformers 支持多種語言

VoRA是一個基於7B參數的視覺語言模型，能夠處理圖像和文本輸入，生成文本輸出。

圖像生成文本

Qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instruct是一個72B參數規模的多模態大模型，支持視覺-語言任務，能夠理解和生成與圖像相關的文本內容。

文本生成圖像英語

Qwen Qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instruct是一個32B參數規模的多模態視覺語言模型，支持圖像理解和文本生成任務。

文本生成圖像英語

基於Qwen2.5-VL通過創新性Curr-ReFT方法微調的多模態大語言模型，顯著提升了視覺語言理解與推理能力。

文本生成圖像

Internvl2 5 HiMTok 8B

HiMTok是一個基於InternVL2_5-8B大型多模態模型微調的分層掩碼標記學習框架，專注於圖像分割任務。

圖像生成文本

這是一個圖像文本到文本的轉換模型，能夠處理圖像和文本輸入，生成相應的文本輸出。

文本生成圖像

Qwen2 VL 7B Captioner Relaxed GGUF

該模型是基於Qwen2-VL-7B-Captioner-Relaxed轉換的GGUF格式版本，專為圖像轉文本任務優化，支持通過llama.cpp和Koboldcpp等工具運行。

圖像生成文本英語

mmMamba-linear是首個通過中等學術計算資源實現二次到線性蒸餾的純解碼器多模態狀態空間模型，具有高效的多模態處理能力。

圖像生成文本

Qwen2 Vl 7b Rslora Offensive Meme Singapore

針對新加坡語境下冒犯性表情包分類的視覺語言模型，基於Qwen2-VL-7B-Instruct微調

多模態融合

Transformers 英語

Mulberry Qwen2vl 7b

桑葚模型是一個基於逐步推理的模型，通過集體知識搜索生成的Mulberry - 260K SFT數據集上進行訓練。

文本生成圖像

Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224

DeepSeer是基於DeepSeek-R1模型開發的視覺語言模型，支持思維鏈推理能力，通過對話模板訓練視覺模型。

圖像生成文本

mehmetkeremturkcan

魔術師是首個具備自由形式多圖像定位能力的多模態大語言模型，在複雜多圖像場景中實現精確定位，性能超越70B規模模型。

文本生成圖像

Transformers 英語

Open LLaVA NeXT LLaMA3 8B

一個開源的聊天機器人模型，通過在開源數據上微調整個模型進行訓練，可用於多模態模型和聊天機器人的研究。

文本生成圖像

Share4oReasoning

Qwen2 VL 7B Instruct GGUF

Qwen2-VL-7B-Instruct 是一個多模態視覺語言模型，支持圖像和文本的聯合理解與生成。

文本生成圖像

Transformers 英語

Minivla Vq Libero90 Prismatic

MiniVLA是一個輕量級的視覺語言模型，兼容Prismatic VLMs訓練框架，支持圖像文本到文本的多模態任務。

圖像生成文本

Transformers 英語

GLM-Edge-V-5B是一個50億參數的多模態模型，支持圖像和文本輸入，能夠執行圖像理解和文本生成任務。

圖像生成文本

Emu3是由北京智源研究院開發的多模態模型，僅通過預測下一個標記訓練而成，支持圖像、文本和視頻處理。

文本生成圖像

Llama 3 EvoVLM JP V2

Llama-3-EvoVLM-JP-v2 是一款實驗性通用日語視覺語言模型，支持交錯輸入文本和圖像。該模型採用進化模型融合方法創建。

圖像生成文本

Transformers 日語

Cephalo Idefics 2 Vision 10b Alpha

Cephalo是一系列專注於多模態材料科學的視覺大語言模型（V-LLMs），旨在整合視覺和語言數據，以促進人機交互或多智能體AI框架中的高級理解和交互。

圖像生成文本

Transformers 其他

Open Llava Next Llama3 8b

一個開源的聊天機器人模型，通過在開源數據上微調整個模型進行訓練，可用於多模態模型和聊天機器人的研究。

文本生成圖像

Denseconnector V1.5 8B

DenseConnector 是一個開源聊天機器人，基於 LLaMA/Vicuna 微調，並利用 GPT 生成的多模態指令跟隨數據進行訓練。

圖像生成文本

Cephalo Idefics 2 Vision 8b Alpha

Cephalo是一系列專注於多模態材料科學的視覺大語言模型（V-LLMs），旨在整合視覺和語言數據，以促進人機交互或多智能體AI框架中的高級理解和互動。

圖像生成文本

Transformers 其他

Llava Jp 1.3b V1.1

LLaVA-JP是一個支持日語的多模態視覺語言模型，能夠理解和生成關於輸入圖像的描述和對話。

圖像生成文本

Transformers 日語

這是一個基於transformers的圖像到文本轉換模型，具體功能需進一步補充

圖像生成文本

Llava Next Mistral 7b 4096

基於LLaVA-v1.6-Mistral-7B模型微調的多模態模型，支持圖像和文本的聯合理解與生成

文本生成圖像

Llava V1.5 13b Dpo Gguf

LLaVA-v1.5-13B-DPO 是一個基於LLaVA框架的視覺語言模型，經過直接偏好優化(DPO)訓練，並轉換為GGUF量化格式以提高推理效率。

圖像生成文本

LLaVA是一個開源的多模態聊天機器人，基於大語言模型微調訓練而成，支持圖像和文本的交互。

文本生成圖像

Moe LLaVA StableLM 1.6B 4e

MoE-LLaVA是一種基於專家混合架構的大規模視覺語言模型，通過稀疏激活參數實現高效的多模態學習。

文本生成圖像

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase