視覺語言模型

# 視覺語言模型

Vigorl 7b Spatial

ViGoRL 是一個通過強化學習微調的視覺語言模型，用於將文本推理步驟與視覺座標明確關聯，實現精確的視覺推理和定位。

文本生成圖像

GUI Actor 2B Qwen2 VL

GUI-Actor-2B是基於Qwen2-VL-2B的視覺語言模型，專為圖形用戶界面(GUI)定位任務設計，通過增加基於注意力的動作頭並進行微調，在多個GUI定位基準測試中表現良好。

文本生成圖像

Vjepa2 Vitl Fpc64 256

V-JEPA 2是Meta旗下FAIR團隊開發的前沿視頻理解模型，擴展了VJEPA的預訓練目標，具備業界領先的視頻理解能力。

Bespoke MiniChart 7B

由Bespoke Labs開發的7B參數規模開源圖表理解視覺語言模型，在圖表問答任務上超越Gemini-1.5-Pro等閉源模型

文本生成圖像英語

Instancecap Captioner

基於Qwen2.5-VL-7B-Instruct在instancevid數據集上微調的視覺語言模型，專注於實例級圖像描述生成

圖像生成文本

WebDreamer 是一個規劃框架，能夠為現實世界中的網頁智能體任務實現高效且有效的規劃。

圖像生成文本

Transformers 英語

Gemma 3 27b It GGUF

Gemma 3 27B參數的GGUF量化版本，支持圖像文本交互任務

文本生成圖像

STEVE R1 7B SFT I1 GGUF

這是對Fanbin/STEVE-R1-7B-SFT模型進行的加權/矩陣量化版本，適用於資源受限環境。

文本生成圖像英語

Gemma 3 27b Pt Qat Q4 0 Gguf

Gemma是谷歌推出的輕量級尖端開放模型家族，基於與Gemini模型相同的研究和技術構建。Gemma 3為多模態模型，可處理文本和圖像輸入並生成文本輸出。

圖像生成文本

Gemma 3 4b It GGUF

Gemma 3是谷歌推出的輕量級開源多模態模型，支持文本和圖像輸入，生成文本輸出，具有128K上下文窗口和140+語言支持。

圖像生成文本

Q-SiT Mini是一個輕量級的圖像質量評估與對話模型，專注於圖像質量分析和評分。

圖像生成文本

Llama 3 2 11b Vision Electrical Components Instruct

Llama 3.2 11B Vision Instruct 是一個結合視覺和語言的多模態模型，支持圖像轉文本任務。

圖像生成文本英語

Llava NeXT Video 7B Hf

LLaVA-NeXT-Video-7B-hf 是一個基於視頻的多模態模型，能夠處理視頻和文本輸入，生成文本輸出。

視頻生成文本

Safetensors 英語

Internlm XComposer2 Enhanced

基於InternLM2開發的視覺語言大模型，具備卓越的圖文理解與創作能力

文本生成圖像

Libra Llava Med V1.5 Mistral 7b

LLaVA-Med是一個專為生物醫學應用優化的開源大型視覺語言模型，基於LLaVA框架，通過課程學習增強，並針對開放式生物醫學問答任務進行了微調。

圖像生成文本

Florence 2 Base Castollux V0.4

基於microsoft/Florence-2-base微調的圖像描述生成模型，專注於提升描述質量和格式

圖像生成文本

Transformers 英語

PJMixers-Images

LLaVA-Llama3是基於Llama-3的多模態模型，支持圖像與文本的聯合處理。

圖像生成文本

UI-TARS 是新一代原生圖形用戶界面（GUI）智能體模型，旨在通過類人的感知、推理和行動能力與圖形用戶界面無縫交互。

圖像生成文本

Transformers 支持多種語言

UI-TARS 是新一代原生圖形用戶界面（GUI）代理模型，旨在通過類人的感知、推理和行動能力，無縫地與圖形用戶界面交互。

圖像生成文本

Transformers 支持多種語言

UI-TARS是新一代原生圖形用戶界面（GUI）代理模型，旨在通過類人的感知、推理和行動能力與圖形用戶界面無縫交互。

圖像生成文本

Transformers 支持多種語言

bytedance-research

Deqa Score Mix3

DeQA-Score-Mix3是基於MAGAer13/mplug-owl2-llama2-7b基礎模型微調的無參考圖像質量評估模型，在多個數據集上表現出色。

圖像生成文本

Transformers 英語

Colqwen2 7b V1.0

基於Qwen2-VL-7B-Instruct與ColBERT策略的視覺檢索模型，支持多向量文本與圖像表示

文本生成圖像英語

基於論文《任務偏好優化：通過視覺任務對齊改進多模態大語言模型》研發的多模態大語言模型

文本生成視頻

Olympus是一個通用任務路由系統，專為計算機視覺任務設計，能夠處理20種不同的視覺任務，並通過任務路由機制實現高效的多任務處理。

文本生成圖像

Transformers 英語

Llava Critic 7b Hf

這是一個與transformers兼容的視覺語言模型，具備圖像理解和文本生成能力

文本生成圖像

BLIP Radiology Model

BLIP 是一個基於 Transformer 的圖像描述生成模型，能夠為輸入圖像生成自然語言描述。

圖像生成文本

基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型，能高效通過視覺特徵索引文檔

文本生成圖像

Safetensors 英語

Cogflorence 2.2 Large

該模型是microsoft/Florence-2-large的微調版本，在Ejafa/ye-pop數據集的4萬張圖像子集上進行訓練，標註文本由THUDM/cogvlm2-llama3-chat-19B生成，適用於圖像轉文本任務。

圖像生成文本

Transformers 支持多種語言

Lumina Mgpt 7B 512

Lumina-mGPT是一個多模態自迴歸模型家族，擅長執行多種視覺與語言任務，特別是根據文本描述生成靈活逼真的圖像。

文本生成圖像

Cogflorence 2 Large Freeze

這是microsoft/Florence-2-large模型的微調版本，在Ejafa/ye-pop數據集的38,000張圖像子集上訓練，使用CogVLM2生成標註，專注於圖像轉文本任務。

圖像生成文本

Transformers 支持多種語言

Tic CLIP Bestpool Sequential

TiC-CLIP是基於TiC-DataComp-Yearly數據集訓練的視覺語言模型，採用持續學習策略保持模型與最新數據同步

文本生成圖像

Tic CLIP Bestpool Oracle

TiC-CLIP是基於OpenCLIP改進的視覺語言模型，專注於時間持續學習，訓練數據涵蓋2014至2022年

文本生成圖像

Llava Phi 3 Mini 4k Instruct

結合Phi-3-mini-3.8B大語言模型與LLaVA v1.5的視覺語言模型，提供先進的視覺語言理解能力。

圖像生成文本

Llava Phi 3 Mini Gguf

LLaVA-Phi-3-mini 是基於 Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336 微調的 LLaVA 模型，專注於圖像轉文本任務。

圖像生成文本

moondream的預發佈版本，主要用於內部測試。

大型語言模型

Vlrm Blip2 Opt 2.7b

通過強化學習方法微調的BLIP-2 OPT-2.7B模型，能夠生成長且全面的圖像描述

圖像生成文本

Transformers 英語

Blip Finetuned Fashion

該模型是基於Salesforce/blip-vqa-base微調的視覺問答模型，專注於時尚領域

文本生成圖像

InfiMM-HD是一個高分辨率多模態模型，能夠理解和生成結合圖像和文本的內容。

圖像生成文本

Transformers 英語

基於OpenAI CLIP初始化的視覺語言模型，在ImageNet上進行監督式對抗微調，具有魯棒性增強特性

文本生成圖像

基於OpenAI CLIP初始化的視覺語言模型，通過無監督對抗微調提升魯棒性

文本生成圖像

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase