多模態處理

# 多模態處理

Gemma 3n E2B It Unsloth Bnb 4bit

Gemma 3n-E2B-it 是 Google 推出的輕量級開源多模態模型，基於與 Gemini 相同技術構建，專為低資源設備優化。

圖像生成文本

Transformers 英語

Vision Perceiver Learned

基於ImageNet預訓練的通用視覺感知器模型，採用學習型位置嵌入處理圖像輸入

Gemma 3n是谷歌推出的輕量級、最先進的開源模型家族，支持多模態輸入和輸出。

圖像生成文本

Gemma 3n E4B It

Gemma 3n是Google推出的輕量級、最先進的開源多模態模型家族，基於與Gemini模型相同的研究和技術構建，支持文本、音頻和視覺輸入。

圖像生成文本

Nuextract 2.0 4B

NuExtract 2.0是專為結構化信息提取任務訓練的多模態模型系列，支持文本和圖像輸入，具備多語言處理能力。

圖像生成文本

Bart Large Empathetic Dialogues

該模型是一個基於transformers庫的模型，具體用途和功能需要進一步的信息來確定。

大型語言模型

Google.gemma 3 4b It Qat Int4 Unquantized GGUF

基於Gemma 3 4B的量化版本圖像文本轉文本模型，旨在讓知識為大眾所用

圖像生成文本

Gemma 3 4b It Qat Autoawq

Gemma 3是谷歌推出的輕量級開源多模態模型，基於Gemini技術構建，支持文本和圖像輸入，生成文本輸出。

圖像生成文本

Openclip ViT H 14 FARE2

基於Transformers庫的穩健圖像編碼器模型，專注於圖像特徵提取任務

大型語言模型

Mixtex Finetune

MixTex base_ZhEn 是一個支持中文和英語的圖像轉文本模型，基於MIT許可證發佈。

圖像生成文本支持多種語言

Gemma 3 Glitter 4B

基於Gemma 3 4B模型，採用與Glitter 12b相同的數據混合方案優化的模型

大型語言模型

Smoldocling 256M Preview Mlx Fp16

該模型是從 ds4sd/SmolDocling-256M-preview 轉換為 MLX 格式的視覺語言模型，支持圖像文本到文本任務。

圖像生成文本

Transformers 英語

Gemma 3 27b Pt Bnb 4bit

Gemma 3是谷歌推出的輕量級開放模型系列，基於與Gemini模型相同的研究和技術構建，支持多模態輸入和文本輸出。

圖像生成文本

Transformers 英語

Gemma 3 1b Pt Unsloth Bnb 4bit

Gemma 3是谷歌推出的輕量級開放模型系列，支持多模態輸入（文本和圖像），擁有128K大上下文窗口，適用於問答、摘要等多種任務。

圖像生成文本

Transformers 英語

Kaleidoscope Large V1

基於sberbank-ai/ruBert-large微調的文檔問答模型，擅長從文檔中提取答案，支持俄語和英語。

Transformers 支持多種語言

Kaleidoscope Large V1

基於sberbank-ai/ruBert-large微調的文檔問答專用模型，支持俄語和英語的文檔問答任務。

Transformers 支持多種語言

Kaleidoscope Small V1

基於sberbank-ai/ruBert-base微調的文檔問答模型，擅長從文檔上下文中提取答案，支持俄語和英語。

Transformers 支持多種語言

Ola-7B是由騰訊、清華大學和南洋理工大學聯合開發的多模態語言模型，基於Qwen2.5架構，支持處理圖像、視頻、音頻和文本輸入，並輸出文本。

多模態融合支持多種語言

Ola-7B是由騰訊、清華大學和南洋理工大學聯合開發的多模態大語言模型，基於Qwen2.5架構，支持處理文本、圖像、視頻和音頻輸入，並生成文本輸出。

多模態融合

Safetensors 支持多種語言

該模型能夠將PDF文檔轉換為Markdown格式，保持原始文檔排版結構，準確識別數學公式和表格。

圖像生成文本

Transformers 支持多種語言

Florence 2 FT DocVQA

基於Florence-2-base微調的文檔視覺問答模型，專門用於處理文檔圖像中的問答任務。

圖像生成文本

Transformers 英語

Longvu Llama3 2 1B

LongVU 是一種面向長視頻語言理解的時空自適應壓縮技術，旨在高效處理長視頻內容，提升語言理解能力。

視頻生成文本

Oryx-1.5-7B是基於Qwen2.5語言模型開發的7B參數模型，支持32K tokens上下文窗口，專注於高效處理任意空間尺寸和時長的視覺輸入。

文本生成視頻

Safetensors 支持多種語言

Longvu Llama3 2 3B

LongVU是一種面向長視頻語言理解的時空自適應壓縮技術，旨在高效處理長視頻內容。

視頻生成文本

H2ovl Mississippi 800m

H2O.ai推出的8億參數視覺語言模型，專注於OCR和文檔理解，性能優異

圖像生成文本

Transformers 英語

Florence 2 DocVQA

基於微軟Florence-2模型使用Docmatix數據集（5%數據量）微調1天的版本，適用於圖像文本理解任務

文本生成圖像

Pixtral 12b Nf4

基於Mistral社區Pixtral-12B的4位量化版本，專注於圖像文本到文本任務，支持中文描述生成

圖像生成文本

Florence 2 Large Florence 2 Large Nsfw Pretrain Gt

該模型是一個基於transformers庫的模型，具體功能和用途需要進一步信息確認。

大型語言模型

Ucmt Sam On Depth

基於PyTorch實現的掩碼生成模型，通過PytorchModelHubMixin集成推送至Hub

Ecot Openvla 7b Oxe

適用於機器人控制任務的預訓練Transformer模型，支持運動規劃、物體抓取等基礎功能

大型語言模型

Florence 2 DocVQA

這是微軟Florence-2模型使用Docmatix數據集（5%數據量）以1e-6學習率微調1天后的版本

文本生成圖像

Donut 是一個基於 Transformer 的圖像轉文本模型，能夠從圖像中提取和生成文本內容。

圖像生成文本

Kosmos 2 PokemonCards Trl Merged

這是一個基於微軟Kosmos-2模型微調的多模態模型，專門用於識別寶可夢卡牌中的寶可夢名稱。

圖像生成文本

Transformers 英語

Icon Captioning Model

這是一個基於BLIP架構的圖像描述生成模型，專門用於為圖標或簡單圖像生成文本描述。

圖像生成文本

Fine Tuned Rvl Cdip

基於microsoft/layoutlmv3-base模型在文檔圖像分類任務上微調的版本，在評估集上F1分數達到0.8177

Interpret Cxr Impression Baseline

該模型能夠將輸入的醫學圖像（如X光片）轉換為描述性文本，輔助醫療診斷。

圖像生成文本

Output LayoutLMv3 V7

基於microsoft/layoutlmv3-base微調的文檔理解模型，擅長處理文檔佈局分析任務

Donut Base Handwriting Recognition

基於naver-clova-ix/donut-base微調的手寫識別模型

Llava Maid 7B DPO GGUF

LLaVA 是一個大型語言和視覺助手模型，能夠處理圖像和文本的多模態任務。

圖像生成文本

Docllm Baichuan2 7b

DocLLM_reimplementation 是一個針對文檔理解任務的大語言模型實現項目，旨在重新實現和改進文檔理解能力。

大型語言模型

JinghuiLuAstronaut

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase