多模態推理

# 多模態推理

GLM 4.1V 9B Thinking

GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型的開源視覺語言模型，專注於提升複雜任務中的推理能力，支持64k上下文長度和4K圖像分辨率。

圖像生成文本

Transformers 支持多種語言

Kimi VL A3B Thinking 2506

Kimi-VL-A3B-Thinking-2506 是 Kimi-VL-A3B-Thinking 的升級版，在多模態推理、視覺感知與理解、視頻場景處理等方面有顯著提升，支持更高分辨率圖像，且能在消耗更少令牌的情況下實現更智能的思考。

圖像生成文本

Magistral Small 2506 Vision

Magistral-Small-2506-Vision 是一個基於 Mistral Small 3.1 進行 GRPO 訓練的推理微調版本，具備視覺能力的實驗性檢查點。

圖像生成文本

Safetensors 支持多種語言

RT DETR L Wireless Table Cell Det

RT-DETR-L_wireless_table_cell_det 是一個高精度的表格單元格檢測模型，專為表格識別任務設計，能夠準確定位和標記表格圖像中的每個單元格區域。

文字識別支持多種語言

Stockmark 2 VL 100B Beta

Stockmark-2-VL-100B-beta 是一款具有1000億參數的日語專用視覺語言模型，具備思維鏈（CoT）推理能力，可用於文檔閱讀理解。

圖像生成文本

Transformers 支持多種語言

Internvl3 14B Instruct GGUF

InternVL3-14B-Instruct 是一個先進的多模態大語言模型（MLLM），展示了卓越的多模態感知和推理能力，支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。

圖像生成文本

Internvl3 8B Instruct GGUF

InternVL3-8B-Instruct 是一個先進的多模態大語言模型（MLLM），展示了卓越的整體性能，具備強大的多模態感知和推理能力。

文本生成圖像

InternVL3-8B 是一款先進的多模態大語言模型，具備卓越的多模態感知和推理能力，能處理圖像、視頻等多模態數據。

多模態對齊

Internvl3 1B GGUF

InternVL3-1B是一款先進的多模態大語言模型，在多模態感知、推理等能力上表現出色，還拓展了工具使用、GUI代理等多模態能力。

多模態融合

Visionreasoner 7B

VisionReasoner-7B是一個圖像文本到文本的模型，採用解耦架構，由推理模型和分割模型組成，能解讀用戶意圖並生成像素級掩碼。

圖像生成文本

Transformers 英語

Qwen2.5 VL 32B Instruct FP8 Dynamic

基於Qwen2.5-VL-32B-Instruct模型的FP8量化版本，支持視覺-文本輸入和文本輸出，適用於高效推理場景。

圖像生成文本

Transformers 英語

Gemma 3 27b It FP8 Dynamic

這是google/gemma-3-27b-it的量化版本，採用FP8數據類型對權重進行量化，適用於視覺-文本輸入並輸出文本，可藉助vLLM高效部署進行推理。

圖像生成文本

Transformers 英語

Qwen3-8B 是 Qwen 系列的最新大語言模型，具備多種先進特性，支持多語言，在推理、指令跟隨等方面表現出色，能為用戶帶來更智能、自然的交互體驗。

大型語言模型

Bespoke MiniChart 7B

由Bespoke Labs開發的7B參數規模開源圖表理解視覺語言模型，在圖表問答任務上超越Gemini-1.5-Pro等閉源模型

文本生成圖像英語

Skywork R1V2 38B

天工-R1V2-38B是當前最先進的開源多模態推理模型，在多項基準測試中表現卓越，具備強大的視覺推理與文本理解能力。

圖像生成文本

ViCA2是一個多模態視覺語言模型，專注於視頻理解和視覺空間認知任務。

視頻生成文本

Transformers 英語

Vica2 Stage2 Onevision Ft

ViCA2是一個7B參數規模的多模態視覺語言模型，專注於視頻理解和視覺空間認知任務。

視頻生成文本

Transformers 英語

Internvl3 78B Hf

InternVL3 是一個先進的多模態大語言模型系列，具備強大的多模態感知和推理能力，支持圖像、視頻和文本輸入。

圖像生成文本

Transformers 其他

Internvl3 38B Hf

InternVL3-38B是一個先進的多模態大語言模型（MLLM），在多模態感知和推理能力上有顯著提升，支持工具使用、GUI代理、工業圖像分析、3D視覺感知等領域。

圖像生成文本

Transformers 其他

Synthia S1 27b Bnb 4bit

Synthia-S1-27b是由Tesslate AI開發的高級推理AI模型，專注於邏輯推理、編碼和角色扮演任務。

文本生成圖像

Internvl3 14B Hf

InternVL3-14B是一個強大的多模態大語言模型，在多模態感知和推理能力上表現卓越，支持圖像、文本、視頻等多種輸入。

圖像生成文本

Transformers 其他

Spacethinker Qwen2.5VL 3B

SpaceThinker是一款通過測試時計算增強空間推理能力的多模態視覺語言模型，特別擅長定量空間推理和物體關係分析。

文本生成圖像英語

Internvl3 9B AWQ

InternVL3-9B是InternVL3系列中的一款多模態大語言模型，具備卓越的多模態感知與推理能力，支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種應用場景。

文本生成圖像

Transformers 其他

Internvl3 8B AWQ

InternVL3-8B是OpenGVLab推出的先進多模態大語言模型，具備強大的多模態感知與推理能力，支持工具調用、GUI智能體、工業圖像分析、3D視覺感知等新領域。

圖像生成文本

Transformers 其他

TBAC VLR1 3B Preview

由騰訊PCG基礎算法中心微調的多模態語言模型，基於Qwen2.5-VL-3B-Instruct優化，在同規模模型中實現多項多模態推理基準的最先進性能

圖像生成文本英語

Internvl3 9B Instruct

InternVL3-9B-Instruct 是 InternVL3 系列的監督微調版本，具備強大的多模態感知和推理能力，支持圖像、文本、視頻等多種模態處理。

圖像生成文本

Transformers 其他

Internvl3 8B Instruct

InternVL3-8B-Instruct 是一個先進的多模態大語言模型（MLLM），展示了卓越的多模態感知和推理能力，支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種功能。

圖像生成文本

Transformers 其他

Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16

這是一個經過INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型，由Red Hat (Neural Magic)優化發佈，適用於快速響應的對話代理和低延遲推理場景。

文本生成圖像

Safetensors 支持多種語言

VL-Reasoner-7B 是一個基於 GRPO-SSR 技術訓練的多模態推理模型，在多項多模態推理基準測試中表現卓越。

文本生成圖像

Transformers 英語

InternVL3-38B 是一款先進的多模態大語言模型，在多模態感知、推理等能力上表現卓越，相較於前代模型有顯著提升，還拓展了工具使用、GUI 代理等多模態能力。

文本生成圖像

Transformers 其他

InternVL3-8B是一款先進的多模態大語言模型，具備卓越的多模態感知和推理能力，在工具使用、GUI代理、工業圖像分析等多領域表現出色。

多模態融合

Transformers 其他

General Reasoner 14B Preview

基於Qwen2.5-14B基礎模型和VisualWebInstruct-Verified數據集訓練的多模態推理模型，支持英語任務處理。

大型語言模型

Transformers 英語

Spaceqwen2.5 VL 3B Instruct GGUF

SpaceQwen2.5-VL-3B-Instruct 是一個多模態視覺語言模型，專注於空間推理和具身智能任務。

文本生成圖像英語

R01 Gemma 3 1b It

Gemma 3是谷歌推出的輕量級開源多模態模型，基於與Gemini相同技術構建，支持文本和圖像輸入並生成文本輸出。

文本生成圖像

Transformers 英語

DeepCogito推出的通過迭代蒸餾與放大（IDA）訓練的強大混合推理模型，在編程、STEM、多語言和智能體應用場景中表現卓越。

大型語言模型

Qwen2.5 VL 7B Instruct Gptqmodel Int8

基於Qwen2.5-VL-7B-Instruct模型進行GPTQ-INT8量化的視覺語言模型

圖像生成文本

Transformers 支持多種語言

Space Voice Label Detect Beta

基於Qwen2.5-VL-3B模型的微調版本，使用Unsloth和Huggingface TRL庫進行訓練，推理速度提升2倍

文本生成圖像

Transformers 英語

WebDreamer 是一個規劃框架，能夠為現實世界中的網頁智能體任務實現高效且有效的規劃。

圖像生成文本

Transformers 英語

Gemma 3 27b It GGUF

Gemma 3 27B參數的GGUF量化版本，支持圖像文本交互任務

文本生成圖像

基於Qwen2.5-VL通過創新性Curr-ReFT方法微調的多模態大語言模型，顯著提升了視覺語言理解與推理能力。

文本生成圖像

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase