视觉文本生成

# 视觉文本生成

Wan2.1 T2V 1.3B GGUF

Wan2.1-T2V-1.3B的直接GGUF转换版本，适用于消费级GPU的视频生成任务

文本生成视频英语

samuelchristlie

Gemma 3 12b It Qat Autoawq

Gemma 3是Google基于Gemini技术构建的轻量级开放模型系列，支持多模态输入和文本输出。

图像生成文本

Qwen.qwen2 VL 7B GGUF

Qwen2-VL-7B的量化版本，致力于让知识为每个人所用。

图像生成文本

Llama 3.2 11B Vision Instruct GGUF

Llama-3.2-11B-Vision-Instruct 是一个支持多语言的视觉-语言模型，可用于图像文本到文本的转换任务。

图像生成文本

Transformers 支持多种语言

基于unsloth/Llama-3.2-11B-Vision-Instruct进行精调的多模态模型，针对视觉-语言任务优化并增强指令跟随能力，通过Unsloth框架实现2倍训练加速

文本生成图像

Transformers 英语

Erax VL 7B V1.5 GGUF

EraX-VL-7B-V1.5的多模态量化版本，支持越南语、英语和中文，适用于保险、OCR等任务。

图像生成文本支持多种语言

Donut Base Finetuned Zhtrainticket

基于ZhTrainTicket微调的Donut模型，用于文档图像到文本的转换，无需OCR处理。

图像生成文本

Donut Base Finetuned Cord V2

Donut是一个无需OCR的文档理解Transformer模型，由视觉编码器(Swin Transformer)和文本解码器(BART)组成，能够直接从图像中提取文本信息。

图像生成文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase