多模態大語言模型

# 多模態大語言模型

SAIL是一個專為視覺與語言設計的單一Transformer模型，作為統一的多模態大語言模型（MLLM），它在單一架構中無縫集成了原始像素編碼和語言解碼功能。

圖像生成文本

Internvl3 8B Hf

InternVL3 是一個先進的多模態大語言模型系列，具備強大的多模態感知和推理能力，支持圖像、視頻和文本輸入。

圖像生成文本

Transformers 其他

Internvl3 2B AWQ

InternVL3-2B是OpenGVLab推出的先進多模態大語言模型（MLLM），具備卓越的多模態感知和推理能力，支持工具使用、GUI代理、工業圖像分析、3D視覺感知等。

Transformers 其他

InternVL3-1B是InternVL3系列中的1B參數規模多模態大語言模型，整合了InternViT視覺編碼器和Qwen2.5語言模型，具備卓越的多模態感知和推理能力。

Transformers 其他

Ovis2-1B是多模態大語言模型（MLLM）Ovis系列的最新成員，專注於視覺與文本嵌入的結構對齊，具有小模型高性能、強化推理能力、視頻與多圖處理以及多語言OCR增強等特性。

文本生成圖像

Transformers 支持多種語言

Video-R1-7B是基於Qwen2.5-VL-7B-Instruct優化的多模態大語言模型，專注於視頻推理任務，能夠理解視頻內容並回答相關問題。

視頻生成文本

Transformers 英語

Finedefics 是一個開源的多模態大語言模型（MLLM），通過融入對象的信息化屬性描述，增強了細粒度視覺識別（FGVR）能力。

圖像生成文本

MiniMax-VL-01是一個強大的多模態大語言模型，採用'ViT-MLP-LLM'框架，具有動態分辨率處理能力，在多項視覺語言任務中表現優異。

圖像生成文本

Videorefer 7B Stage2.5

VideoRefer-7B是一個基於視頻大語言模型的多模態模型，專注於時空物體理解任務。

文本生成視頻

Transformers 英語

P MoD LLaVA NeXT 7B

p-MoD是一個基於漸進比例衰減方法構建的混合深度多模態大語言模型，支持圖像文本生成文本任務。

圖像生成文本

Llava UHD V2 Vicuna 7B

LLaVA-UHD v2 是一款先進的多模態大語言模型，圍繞分層窗口變換器構建，能夠通過高分辨率特徵金字塔捕捉不同視覺粒度。

多模態融合

Auroracap 7B VID Xtuner

AuroraCap是一個用於圖像和視頻字幕的多模態大語言模型，專注於高效和詳細的視頻字幕生成。

視頻生成文本

Eagle 是一系列以視覺為中心的高分辨率多模態大語言模型，支持高達1K以上的輸入分辨率，在光學字符識別和文檔理解等任務上表現出色。

圖像生成文本

M3D LaMed Llama 2 7B

M3D是基於多模態大語言模型的3D醫學影像分析技術，包含M3D-Data數據集、M3D-LaMed模型和M3D-Bench評估基準。

圖像生成文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase