圖像文本轉換

# 圖像文本轉換

Google.gemma 3 4b It Qat Int4 Unquantized GGUF

基於Gemma 3 4B的量化版本圖像文本轉文本模型，旨在讓知識為大眾所用

圖像生成文本

Gemma 3 12B It Qat GGUF

Gemma 3 12B IT是由谷歌開發的大語言模型，支持多模態輸入和長上下文處理。

圖像生成文本

lmstudio-community

Llama 4 Scout 17b 16e It Gguf

基於Meta Llama基礎模型構建的圖像文本到文本轉換模型，支持通過gguf-connector和llama-cpp-python進行交互。

圖像生成文本

Gemma 3 Glitter 4B

基於Gemma 3 4B模型，採用與Glitter 12b相同的數據混合方案優化的模型

大型語言模型

Gemma 3 27b It GGUF

Gemma-3-27b-it是Google發佈的27B參數規模的量化版本大語言模型，專注於圖像文本轉換任務。

大型語言模型

Gemma 3 4b It GGUF

Gemma-3-4b-it-GGUF 是對 Google 的 Gemma-3-4b-it 模型進行量化處理的版本，使其能在 LlamaEdge 上運行，適用於圖像文本到文本的轉換任務。

Huihui Ai.granite Vision 3.2 2b Abliterated GGUF

Granite Vision 3.2 2B Abliterated 是一個視覺語言模型，專注於圖像文本轉文本任務。

圖像生成文本

Ibm Granite.granite Vision 3.2 2b GGUF

Granite Vision 3.2 2B 是 IBM 開發的一個視覺語言模型，專注於圖像文本轉文本任務。

圖像生成文本

赫爾墨斯流是一個通用的多模態大語言模型對齊框架，能夠自主生成同源偏好數據，並通過自我博弈迭代優化與配對DPO技術，無縫彌合多模態理解與生成的鴻溝。

圖像生成文本

Minicpm V 2 6 GGUF

MiniCPM-V-2_6的GGUF量化版本，基於llama.cpp實現高效圖像文本轉換

圖像生成文本

Llava Maid 7B DPO GGUF

LLaVA 是一個大型語言和視覺助手模型，能夠處理圖像和文本的多模態任務。

圖像生成文本

Git Base Textcaps

GIT是一個基於Transformer的生成式圖像到文本模型，能夠將視覺內容轉換為描述性文本。

圖像生成文本

Transformers 支持多種語言

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase