視覺文本生成

# 視覺文本生成

Wan2.1 T2V 1.3B GGUF

Wan2.1-T2V-1.3B的直接GGUF轉換版本，適用於消費級GPU的視頻生成任務

文本生成視頻英語

samuelchristlie

Gemma 3 12b It Qat Autoawq

Gemma 3是Google基於Gemini技術構建的輕量級開放模型系列，支持多模態輸入和文本輸出。

圖像生成文本

Qwen.qwen2 VL 7B GGUF

Qwen2-VL-7B的量化版本，致力於讓知識為每個人所用。

圖像生成文本

Llama 3.2 11B Vision Instruct GGUF

Llama-3.2-11B-Vision-Instruct 是一個支持多語言的視覺-語言模型，可用於圖像文本到文本的轉換任務。

圖像生成文本

Transformers 支持多種語言

基於unsloth/Llama-3.2-11B-Vision-Instruct進行精調的多模態模型，針對視覺-語言任務優化並增強指令跟隨能力，通過Unsloth框架實現2倍訓練加速

文本生成圖像

Transformers 英語

Erax VL 7B V1.5 GGUF

EraX-VL-7B-V1.5的多模態量化版本，支持越南語、英語和中文，適用於保險、OCR等任務。

圖像生成文本支持多種語言

Donut Base Finetuned Zhtrainticket

基於ZhTrainTicket微調的Donut模型，用於文檔圖像到文本的轉換，無需OCR處理。

圖像生成文本

Donut Base Finetuned Cord V2

Donut是一個無需OCR的文檔理解Transformer模型，由視覺編碼器(Swin Transformer)和文本解碼器(BART)組成，能夠直接從圖像中提取文本信息。

圖像生成文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase