多模態大模型

# 多模態大模型

INFRL Qwen2.5 VL 72B Preview Ggufs Fully Quantized

基於Qwen2.5-VL-72B-Instruct改進的視覺語言模型，在多個視覺推理基準測試中表現優異

文本生成圖像英語

Heron NVILA Lite 33B

Heron-NVILA-Lite-33B 是一款基於 NVILA-Lite 架構、專為日語訓練的視覺語言模型，支持日語和英語的多模態任務。

圖像生成文本支持多種語言

Finetune VQA 1B

基於InternVL3-1B和Vintern-1B-v3_5微調的視覺問答模型，支持越南語，適用於圖像內容理解和問答任務。

文本生成圖像其他

Emova Qwen 2 5 3b

EMOVA是一種端到端全能模態大語言模型，支持視覺、聽覺和語音功能，能夠生成具有情感控制的文本和語音響應。

多模態融合

Transformers 支持多種語言

Internvl3 2B Hf

InternVL3-2B是基於Hugging Face Transformers庫實現的多模態大語言模型，在圖像、視頻和文本處理等多模態任務上表現出色，支持多種輸入方式和高效的批量推理。

圖像生成文本

Transformers 其他

Internvl3 1B Hf

InternVL3 是一個先進的多模態大語言模型系列，展示了卓越的多模態感知和推理能力，支持圖像、視頻和文本輸入。

圖像生成文本

Transformers 其他

Internvl3 78B Pretrained

InternVL3-78B是OpenGVLab推出的先進多模態大語言模型，展現卓越的綜合性能。相比前代InternVL 2.5，具備更強大的多模態感知與推理能力，並將能力拓展至工具使用、GUI代理、工業圖像分析、3D視覺感知等新領域。

文本生成圖像

Transformers 其他

Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged

專為阿拉伯文光學字符識別（OCR）設計的視覺語言模型，能直接識別圖像中的阿拉伯文字。

圖像生成文本

Qwen2.5 Omni 7B GPTQ 4bit

基於Qwen2.5-Omni-7B模型的4比特GPTQ量化版本，支持多語言和多模態任務。

多模態融合

Safetensors 支持多種語言

Internvl 2 5 HiCo R16

InternVideo2.5 是一款基於長且豐富的上下文（LRC）建模增強的視頻多模態大語言模型（MLLM），構建於 InternVL2.5 之上。

文本生成視頻

Transformers 英語

Internvideo2 5 Chat 8B

InternVideo2.5是一款基於長且豐富上下文(LRC)建模增強的視頻多模態大語言模型，構建於InternVL2.5之上，通過提升感知細粒度細節和捕捉長時序結構的能力，顯著改進了現有MLLM模型。

視頻生成文本

Transformers 英語

Internlm Xcomposer2d5 Ol 7b

InternLM-XComposer2.5-OL是一個支持長時流式視頻與音頻交互的全方位多模態系統。

文本生成圖像

Mplug Owl3 7B 241101

mPLUG-Owl3是一款先進的多模態大語言模型，專注於解決長圖像序列理解問題，通過超注意力機制顯著提升處理速度和序列長度支持。

文本生成圖像英語

Llm Jp 3 Vila 14b

由日本國立情報學研究所開發的大型視覺語言模型，支持日語和英語，具備強大的圖像理解和文本生成能力。

圖像生成文本

Safetensors 日語

Pixtral 12B Captioner Relaxed

基於Pixtral-12B-2409多模態大語言模型進行指令微調的版本，能夠為給定圖像生成更豐富的細節描述

圖像生成文本

Transformers 英語

mPLUG-DocOwl2是一款無需OCR的多頁文檔理解多模態大語言模型，通過高分辨率文檔壓縮器高效編碼文檔內容。

圖像生成文本英語

ChartMoE是基於InternLM-XComposer2的多模態大語言模型，採用專家混合連接器，具備高級圖表功能。

圖像生成文本

袋鼠是一個專為長視頻理解設計的強大多模態大語言模型，支持中英雙語對話和長視頻輸入。

視頻生成文本

Transformers 支持多種語言

Xgen Mm Phi3 Mini Base R V1

XGen-MM是Salesforce AI Research開發的最新多模態大模型系列，基於BLIP的成功設計，通過基礎性增強實現了更強大、更優越的模型架構。

圖像生成文本

Transformers 英語

Internlm Xcomposer2 Vl 1 8b

基於InternLM2的視覺-語言大模型，具備卓越的圖文理解與創作能力

文本生成圖像

Internlm Xcomposer2 Vl 7b

InternLM-XComposer2是基於InternLM2研發的視覺-語言大模型，具備卓越的圖文理解與創作能力。

文本生成圖像

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase