圖像文本理解

# 圖像文本理解

Gemma 27B Chatml

Gemma 3是Google推出的輕量級、最先進的開源多模態模型家族，基於創建Gemini模型的相同研究和技術構建，支持文本和圖像輸入並生成文本輸出。

圖像生成文本

Gemma 3 4b It Qat Autoawq

Gemma 3是谷歌推出的輕量級開源多模態模型，基於Gemini技術構建，支持文本和圖像輸入，生成文本輸出。

圖像生成文本

Llama 4 Maverick 17B 128E

Llama 4 Maverick是Meta開發的多模態AI模型，採用混合專家架構，支持文本和圖像理解，具有170億激活參數和4000億總參數。

文本生成圖像

Transformers 支持多種語言

Gemma 3 1b Pt Unsloth Bnb 4bit

Gemma 3是谷歌推出的輕量級開放模型系列，支持多模態輸入（文本和圖像），擁有128K大上下文窗口，適用於問答、摘要等多種任務。

圖像生成文本

Transformers 英語

Gemma 3 12b It GGUF

Gemma-3-12b-it-GGUF 是基於 Google 原始模型 google/gemma-3-12b-it 構建的量化模型，適用於圖像文本到文本的任務。

大型語言模型

Qwen2 VL 7B Instruct GGUF

基於Qwen2-VL-7B-Instruct的多模態模型量化版本，支持圖像文本到文本任務，適用於多種量化級別。

圖像生成文本英語

Razorback 12B V0.2

Razorback 12B v0.2 是一個結合了Pixtral 12B和UnslopNemo v3優勢的多模態模型，具備視覺理解和語言處理能力。

圖像生成文本

Transformers 支持多種語言

GLM-Edge-V-2B是一個基於Pytorch框架的圖像文本到文本模型，支持中文處理。

圖像生成文本

Llava 1.6 Mistral 7b Gguf

LLaVA是一個開源的多模態聊天機器人，通過在多模態指令跟隨數據上微調LLM訓練而成。本版本為GGUF量化版本，提供多種量化選項。

文本生成圖像

Llava-Phi2是基於Phi2的多模態實現，結合了視覺和語言處理能力，適用於圖像文本到文本的任務。

圖像生成文本

Transformers 英語

MMAlaya是基於大語言模型Alaya開發的多模態系統，包含大語言模型、圖像文本特徵編碼器和特徵轉換模塊三大核心組件。

圖像生成文本

Llava V1.5 13B AWQ

LLaVA是一個開源的多模態聊天機器人，通過微調LLaMA/Vicuna在GPT生成的多模態指令跟隨數據上進行訓練。

文本生成圖像

Llava Pretrain Vicuna 7b V1.3

LLaVA 是一個開源多模態聊天機器人，基於 LLaMA/Vicuna 在 GPT 生成的多模態指令跟隨數據上進行微調訓練而成。

文本生成圖像

Git Base Textvqa

基於microsoft/git-base-textvqa在textvqa數據集上微調的視覺問答模型，擅長處理包含文本的圖像問答任務

大型語言模型

Transformers 其他

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase