多模态文本生成

# 多模态文本生成

Vintern 1B V3 5 GGUF Ext

Vintern-1B-v3_5是一个10亿参数的视觉语言模型，支持图像文本生成任务。

文本生成图像

Mistral Small 3.1 24B Instruct 2503 GGUF

这是一个基于Mistral-Small-3.1-24B-Instruct-2503的视觉增强版本，支持图像文本生成文本任务。

图像生成文本

Gemma 3 4b It Int8 Asym Ov

基于OpenVINO优化的Gemma 3 4B参数模型，支持文本到文本及视觉文本推理

图像生成文本

Gemma 3 1b It Qat Int4 Unquantized

Gemma是Google推出的轻量级先进开放模型系列，基于与Gemini相同技术构建，支持多模态输入和文本生成。

大型语言模型

Llama 4 Scout 17b 16e It Gguf

基于Meta Llama基础模型构建的图像文本到文本转换模型，支持通过gguf-connector和llama-cpp-python进行交互。

图像生成文本

Gemma 3 4b It Llamafile

Gemma 3是Google推出的轻量级开源模型系列，基于Gemini技术构建，支持多模态输入和文本输出。

文本生成图像

Gemma 3 1b Pt Qat Q4 0 Gguf

Gemma是谷歌推出的轻量级尖端开放模型家族，基于与Gemini模型相同的研究和技术构建。1B版本为预训练基础模型，采用量化感知训练（QAT）的GGUF格式。

图像生成文本

Gemma 3 4b It GGUF

Gemma-3-4b-it-GGUF 是对 Google 的 Gemma-3-4b-it 模型进行量化处理的版本，使其能在 LlamaEdge 上运行，适用于图像文本到文本的转换任务。

图像文本到文本

Qwen2 VL 7B Latex OCR

基于Qwen2-VL-7B模型的微调版本，使用Unsloth和Huggingface TRL库进行训练，推理速度提升2倍。

文本生成图像

Transformers 英语

Llava NeXT Video 34B DPO

Llama 2 是 Meta 开发的一系列开源大语言模型，支持多种自然语言处理任务。

视频生成文本

ko-deplot是基于谷歌Pix2Struct架构的韩语视觉问答模型，通过微调Deplot模型训练而成，支持韩语和英语的图表图像问答任务。

图像生成文本

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase