# 多模態處理

Gemma 3n E2B It Unsloth Bnb 4bit
Gemma 3n-E2B-it 是 Google 推出的輕量級開源多模態模型,基於與 Gemini 相同技術構建,專為低資源設備優化。
圖像生成文本 Transformers 英語
G
unsloth
4,914
2
Vision Perceiver Learned
Apache-2.0
基於ImageNet預訓練的通用視覺感知器模型,採用學習型位置嵌入處理圖像輸入
圖像分類 Transformers
V
deepmind
1,894
13
Gemma 3n E2B
Gemma 3n是谷歌推出的輕量級、最先進的開源模型家族,支持多模態輸入和輸出。
圖像生成文本 Transformers
G
google
206
11
Gemma 3n E4B It
Gemma 3n是Google推出的輕量級、最先進的開源多模態模型家族,基於與Gemini模型相同的研究和技術構建,支持文本、音頻和視覺輸入。
圖像生成文本 Transformers
G
google
1,690
81
Nuextract 2.0 4B
MIT
NuExtract 2.0是專為結構化信息提取任務訓練的多模態模型系列,支持文本和圖像輸入,具備多語言處理能力。
圖像生成文本 Transformers
N
numind
272
3
Bart Large Empathetic Dialogues
該模型是一個基於transformers庫的模型,具體用途和功能需要進一步的信息來確定。
大型語言模型 Transformers
B
sourname
199
1
Google.gemma 3 4b It Qat Int4 Unquantized GGUF
基於Gemma 3 4B的量化版本圖像文本轉文本模型,旨在讓知識為大眾所用
圖像生成文本
G
DevQuasar
161
1
Gemma 3 4b It Qat Autoawq
Gemma 3是谷歌推出的輕量級開源多模態模型,基於Gemini技術構建,支持文本和圖像輸入,生成文本輸出。
圖像生成文本 Safetensors
G
gaunernst
503
1
Openclip ViT H 14 FARE2
MIT
基於Transformers庫的穩健圖像編碼器模型,專注於圖像特徵提取任務
大型語言模型 Transformers
O
RCLIP
24
0
Mixtex Finetune
MIT
MixTex base_ZhEn 是一個支持中文和英語的圖像轉文本模型,基於MIT許可證發佈。
圖像生成文本 支持多種語言
M
wzmmmm
27
0
Gemma 3 Glitter 4B
基於Gemma 3 4B模型,採用與Glitter 12b相同的數據混合方案優化的模型
大型語言模型 Safetensors
G
allura-org
140
3
Smoldocling 256M Preview Mlx Fp16
Apache-2.0
該模型是從 ds4sd/SmolDocling-256M-preview 轉換為 MLX 格式的視覺語言模型,支持圖像文本到文本任務。
圖像生成文本 Transformers 英語
S
ahishamm
24
1
Gemma 3 27b Pt Bnb 4bit
Gemma 3是谷歌推出的輕量級開放模型系列,基於與Gemini模型相同的研究和技術構建,支持多模態輸入和文本輸出。
圖像生成文本 Transformers 英語
G
unsloth
2,009
1
Gemma 3 1b Pt Unsloth Bnb 4bit
Gemma 3是谷歌推出的輕量級開放模型系列,支持多模態輸入(文本和圖像),擁有128K大上下文窗口,適用於問答、摘要等多種任務。
圖像生成文本 Transformers 英語
G
unsloth
4,481
3
Kaleidoscope Large V1
基於sberbank-ai/ruBert-large微調的文檔問答模型,擅長從文檔中提取答案,支持俄語和英語。
問答系統 Transformers 支持多種語言
K
LaciaStudio
297
0
Kaleidoscope Large V1
基於sberbank-ai/ruBert-large微調的文檔問答專用模型,支持俄語和英語的文檔問答任務。
問答系統 Transformers 支持多種語言
K
2KKLabs
214
2
Kaleidoscope Small V1
基於sberbank-ai/ruBert-base微調的文檔問答模型,擅長從文檔上下文中提取答案,支持俄語和英語。
問答系統 Transformers 支持多種語言
K
2KKLabs
98
0
Ola Image
Apache-2.0
Ola-7B是由騰訊、清華大學和南洋理工大學聯合開發的多模態語言模型,基於Qwen2.5架構,支持處理圖像、視頻、音頻和文本輸入,並輸出文本。
多模態融合 支持多種語言
O
THUdyh
61
3
Ola 7b
Apache-2.0
Ola-7B是由騰訊、清華大學和南洋理工大學聯合開發的多模態大語言模型,基於Qwen2.5架構,支持處理文本、圖像、視頻和音頻輸入,並生成文本輸出。
多模態融合 Safetensors 支持多種語言
O
THUdyh
1,020
37
Mineru
Apache-2.0
該模型能夠將PDF文檔轉換為Markdown格式,保持原始文檔排版結構,準確識別數學公式和表格。
圖像生成文本 Transformers 支持多種語言
M
kitjesen
122
12
Florence 2 FT DocVQA
MIT
基於Florence-2-base微調的文檔視覺問答模型,專門用於處理文檔圖像中的問答任務。
圖像生成文本 Transformers 英語
F
sahilnishad
4,928
0
Longvu Llama3 2 1B
Apache-2.0
LongVU 是一種面向長視頻語言理解的時空自適應壓縮技術,旨在高效處理長視頻內容,提升語言理解能力。
視頻生成文本
L
Vision-CAIR
465
11
Oryx 1.5 7B
Apache-2.0
Oryx-1.5-7B是基於Qwen2.5語言模型開發的7B參數模型,支持32K tokens上下文窗口,專注於高效處理任意空間尺寸和時長的視覺輸入。
文本生成視頻 Safetensors 支持多種語言
O
THUdyh
133
7
Longvu Llama3 2 3B
Apache-2.0
LongVU是一種面向長視頻語言理解的時空自適應壓縮技術,旨在高效處理長視頻內容。
視頻生成文本 PyTorch
L
Vision-CAIR
1,079
7
H2ovl Mississippi 800m
Apache-2.0
H2O.ai推出的8億參數視覺語言模型,專注於OCR和文檔理解,性能優異
圖像生成文本 Transformers 英語
H
h2oai
77.67k
33
Florence 2 DocVQA
基於微軟Florence-2模型使用Docmatix數據集(5%數據量)微調1天的版本,適用於圖像文本理解任務
文本生成圖像 Transformers
F
impactframes
30
1
Pixtral 12b Nf4
Apache-2.0
基於Mistral社區Pixtral-12B的4位量化版本,專注於圖像文本到文本任務,支持中文描述生成
圖像生成文本 Transformers
P
SeanScripts
236
20
Florence 2 Large Florence 2 Large Nsfw Pretrain Gt
該模型是一個基於transformers庫的模型,具體功能和用途需要進一步信息確認。
大型語言模型 Transformers
F
ljnlonoljpiljm
55
6
Ucmt Sam On Depth
MIT
基於PyTorch實現的掩碼生成模型,通過PytorchModelHubMixin集成推送至Hub
圖像分割
U
weihao1115
35
1
Ecot Openvla 7b Oxe
適用於機器人控制任務的預訓練Transformer模型,支持運動規劃、物體抓取等基礎功能
大型語言模型 Transformers
E
Embodied-CoT
2,003
0
Florence 2 DocVQA
這是微軟Florence-2模型使用Docmatix數據集(5%數據量)以1e-6學習率微調1天后的版本
文本生成圖像 Transformers
F
HuggingFaceM4
3,096
60
Horus OCR
Donut 是一個基於 Transformer 的圖像轉文本模型,能夠從圖像中提取和生成文本內容。
圖像生成文本 Transformers
H
TeeA
21
0
Kosmos 2 PokemonCards Trl Merged
這是一個基於微軟Kosmos-2模型微調的多模態模型,專門用於識別寶可夢卡牌中的寶可夢名稱。
圖像生成文本 Transformers 英語
K
Mit1208
51
1
Icon Captioning Model
Bsd-3-clause
這是一個基於BLIP架構的圖像描述生成模型,專門用於為圖標或簡單圖像生成文本描述。
圖像生成文本 Transformers
I
Revrse
98
5
Fine Tuned Rvl Cdip
基於microsoft/layoutlmv3-base模型在文檔圖像分類任務上微調的版本,在評估集上F1分數達到0.8177
文字識別 Transformers
F
davidhajdu
21
1
Interpret Cxr Impression Baseline
該模型能夠將輸入的醫學圖像(如X光片)轉換為描述性文本,輔助醫療診斷。
圖像生成文本 Transformers
I
IAMJB
17
0
Output LayoutLMv3 V7
基於microsoft/layoutlmv3-base微調的文檔理解模型,擅長處理文檔佈局分析任務
文字識別 Transformers
O
Noureddinesa
18
1
Donut Base Handwriting Recognition
MIT
基於naver-clova-ix/donut-base微調的手寫識別模型
文字識別 Transformers
D
Cdywalst
140
1
Llava Maid 7B DPO GGUF
LLaVA 是一個大型語言和視覺助手模型,能夠處理圖像和文本的多模態任務。
圖像生成文本
L
megaaziib
99
4
Docllm Baichuan2 7b
DocLLM_reimplementation 是一個針對文檔理解任務的大語言模型實現項目,旨在重新實現和改進文檔理解能力。
大型語言模型 Transformers
D
JinghuiLuAstronaut
185
5
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase