多模態文本生成

# 多模態文本生成

Vintern 1B V3 5 GGUF Ext

Vintern-1B-v3_5是一個10億參數的視覺語言模型，支持圖像文本生成任務。

文本生成圖像

Mistral Small 3.1 24B Instruct 2503 GGUF

這是一個基於Mistral-Small-3.1-24B-Instruct-2503的視覺增強版本，支持圖像文本生成文本任務。

圖像生成文本

Gemma 3 4b It Int8 Asym Ov

基於OpenVINO優化的Gemma 3 4B參數模型，支持文本到文本及視覺文本推理

圖像生成文本

Gemma 3 1b It Qat Int4 Unquantized

Gemma是Google推出的輕量級先進開放模型系列，基於與Gemini相同技術構建，支持多模態輸入和文本生成。

大型語言模型

Llama 4 Scout 17b 16e It Gguf

基於Meta Llama基礎模型構建的圖像文本到文本轉換模型，支持通過gguf-connector和llama-cpp-python進行交互。

圖像生成文本

Gemma 3 4b It Llamafile

Gemma 3是Google推出的輕量級開源模型系列，基於Gemini技術構建，支持多模態輸入和文本輸出。

文本生成圖像

Gemma 3 1b Pt Qat Q4 0 Gguf

Gemma是谷歌推出的輕量級尖端開放模型家族，基於與Gemini模型相同的研究和技術構建。1B版本為預訓練基礎模型，採用量化感知訓練（QAT）的GGUF格式。

圖像生成文本

Gemma 3 4b It GGUF

Gemma-3-4b-it-GGUF 是對 Google 的 Gemma-3-4b-it 模型進行量化處理的版本，使其能在 LlamaEdge 上運行，適用於圖像文本到文本的轉換任務。

Qwen2 VL 7B Latex OCR

基於Qwen2-VL-7B模型的微調版本，使用Unsloth和Huggingface TRL庫進行訓練，推理速度提升2倍。

文本生成圖像

Transformers 英語

Llava NeXT Video 34B DPO

Llama 2 是 Meta 開發的一系列開源大語言模型，支持多種自然語言處理任務。

視頻生成文本

ko-deplot是基於谷歌Pix2Struct架構的韓語視覺問答模型，通過微調Deplot模型訓練而成，支持韓語和英語的圖表圖像問答任務。

圖像生成文本

Transformers 支持多種語言

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase