高分辨率圖像理解

# 高分辨率圖像理解

Eurovlm 9B Preview

EuroVLM-9B-Preview是基於EuroLLM-9B長上下文版本的多模態視覺語言模型，支持多種語言和視覺任務，目前為預覽版本。

圖像生成文本

Transformers 支持多種語言

Janus-Pro 是一種創新的自迴歸框架，統一了多模態理解與生成功能。通過解耦視覺編碼路徑，採用單一Transformer架構處理，解決了視覺編碼器在理解與生成角色間的衝突。

文本生成圖像

Paligemma2 28b Pt 896

PaliGemma 2是Google推出的視覺語言模型(VLM)，融合Gemma 2語言模型和SigLIP視覺模型能力，支持圖像和文本輸入生成文本輸出。

圖像生成文本

Paligemma2 28b Mix 448

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像+文本輸入，輸出文本響應，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 10b Pt 896

PaliGemma 2是Google推出的視覺語言模型(VLM)，融合Gemma 2能力，支持圖像和文本輸入生成文本輸出

圖像生成文本

Paligemma2 10b Pt 448

PaliGemma 2是Google推出的升級版視覺語言模型(VLM)，融合Gemma 2能力，支持圖像和文本輸入生成文本輸出。

圖像生成文本

Paligemma2 3b Pt 448

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 3b Ft Docci 448

PaliGemma 2是Google推出的升級版視覺語言模型，結合Gemma 2和SigLIP視覺模型的能力，支持多語言視覺語言任務。

圖像生成文本

Llama 3.1 8B Dragonfly V2

蜻蜓是基於Llama 3.1通過指令微調訓練的多模態視覺語言模型，支持圖像與文本的聯合理解與生成

圖像生成文本英語

togethercomputer

Convllava JP 1.3b 1280

ConvLLaVA-JP是一款支持高分辨率輸入的日語視覺語言模型，能夠就輸入圖像進行對話。

圖像生成文本

Transformers 日語

Cogvlm2 Llama3 Chat 19B Int4

CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態對話模型，支持中英文，具備8K上下文長度和1344*1344分辨率圖像處理能力。

文本生成圖像

Transformers 英語

360VL是基於LLama3語言模型開發的開源大型多模態模型，具備強大的圖像理解和雙語文本支持能力。

文本生成圖像

Transformers 支持多種語言

Cogvlm2 Llama3 Chinese Chat 19B

CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態大模型，支持中英雙語，具備強大的圖像理解和對話能力。

文本生成圖像

Transformers 英語

Cogvlm2 Llama3 Chat 19B

CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態大模型，支持圖像理解和對話任務，具有8K上下文長度和1344x1344圖像分辨率處理能力。

文本生成圖像

Transformers 英語

360VL是基於LLama3語言模型開發的多模態模型，具備強大的圖像理解和雙語對話能力。

文本生成圖像

Transformers 支持多種語言

Paligemma 3b Pt 896

PaliGemma是一款多功能輕量級視覺語言模型(VLM)，支持圖像和文本輸入，生成文本輸出，具備多語言能力。

圖像生成文本

Paligemma 3b Ft Ocrvqa 448

PaliGemma是Google開發的多功能輕量級視覺語言模型(VLM)，基於SigLIP視覺模型和Gemma語言模型構建，支持圖像和文本輸入，輸出文本結果。

圖像生成文本

Xgen Mm Phi3 Mini Base R V1

XGen-MM是Salesforce AI Research開發的最新多模態大模型系列，基於BLIP的成功設計，通過基礎性增強實現了更強大、更優越的模型架構。

圖像生成文本

Transformers 英語

Xgen Mm Phi3 Mini Instruct R V1

xGen-MM是Salesforce AI Research開發的最新基礎大型多模態模型系列，基於BLIP系列改進，具有強大的圖像理解和文本生成能力。

圖像生成文本

Transformers 英語

Llava Llama 3 8b V1 1 Gguf

基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336模型微調的多模態模型，支持圖像理解和文本生成

圖像生成文本

Llava Llama 3 8b V1 1 Transformers

基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型，支持圖像文本到文本任務

圖像生成文本

猴子模型是一種高效的大型多模態模型，通過提升圖像分辨率和改進文本標籤方法，在多個視覺任務中表現優異。

圖像生成文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase