# 多模態Transformer

Jedi 7B 1080p GGUF
Apache-2.0
基於Transformer架構的圖像文本到文本生成模型,專為計算機/GUI相關場景設計,具備智能代理能力。
文本生成圖像 英語
J
lmstudio-community
113
1
My Model
MIT
GIT是一個基於Transformer的圖像到文本生成模型,能夠根據輸入的圖像生成描述性文本。
圖像生成文本 PyTorch 支持多種語言
M
anoushhka
87
0
Spaceexploreai Small Base Regression 27M
Apache-2.0
基於深度學習的投資預測系統,採用Transformer架構,融合DeepSeep-V3和LLama3設計結構,用於股價走勢預測和技術分析。
大型語言模型 支持多種語言
S
NEOAI
57
4
Microsoft Git Base
MIT
GIT是一個基於Transformer的生成式圖像轉文本模型,能夠將視覺內容轉換為文本描述。
圖像生成文本 支持多種語言
M
seckmaster
18
0
Git Large Coco
MIT
GIT是一個基於Transformer的圖像到文本生成模型,能夠根據輸入圖像生成描述性文本。
圖像生成文本 Transformers 支持多種語言
G
alexgk
25
0
Git Base Finetune
MIT
GIT是一個基於Transformer的生成式圖像到文本模型,能夠將視覺內容轉換為描述性文本。
圖像生成文本 Transformers 支持多種語言
G
wangjin2000
18
0
Textcaps Teste2
MIT
GIT是一個基於Transformer的圖像到文本生成模型,通過大規模圖像-文本對訓練,能夠執行圖像字幕生成、視覺問答等任務。
圖像生成文本 Transformers 支持多種語言
T
artificialguybr
26
3
Git Large R Textcaps
MIT
GIT是一種基於CLIP圖像標記和文本標記的雙條件Transformer解碼器,用於圖像描述生成和視覺問答等任務。
圖像生成文本 Transformers 支持多種語言
G
microsoft
51
10
Git Large R Coco
MIT
GIT是一個基於Transformer的生成式圖像到文本模型,能夠根據圖像生成描述性文本。
圖像生成文本 Transformers 支持多種語言
G
microsoft
86
10
Git Large Vatex
MIT
GIT是一個基於CLIP圖像標記和文本標記條件化的Transformer解碼器,用於圖像和視頻描述生成、視覺問答等任務。
圖像生成文本 Transformers 支持多種語言
G
microsoft
267
1
Git Large Textvqa
MIT
GIT是一個基於Transformer解碼器的視覺語言模型,通過CLIP圖像標記和文本標記雙重條件化訓練,專為TextVQA任務優化。
圖像生成文本 Transformers 支持多種語言
G
microsoft
62
4
Git Large Vqav2
MIT
GIT是一種基於CLIP圖像標記和文本標記的Transformer解碼器,通過大量圖像-文本對訓練,適用於視覺問答等任務。
圖像生成文本 Transformers 支持多種語言
G
microsoft
401
17
Git Large Textcaps
MIT
GIT是一種基於Transformer的雙條件解碼器模型,用於圖像描述生成和視覺問答等任務。
圖像生成文本 Transformers 支持多種語言
G
microsoft
1,749
28
Git Large Coco
MIT
GIT是一種基於Transformer解碼器的視覺語言模型,能夠生成圖像描述並進行視覺問答
圖像生成文本 Transformers 支持多種語言
G
microsoft
6,582
103
Git Base Vatex
MIT
GIT是一個基於Transformer的生成式圖像到文本轉換模型,基礎版本在VATEX數據集上進行了微調,適用於圖像和視頻字幕生成等任務。
圖像生成文本 Transformers 支持多種語言
G
microsoft
752
4
Git Large
MIT
GIT是基於CLIP圖像標記和文本標記的雙條件Transformer解碼器,用於圖像到文本的生成任務
圖像生成文本 Transformers 支持多種語言
G
microsoft
1,404
15
Git Base Vqav2
MIT
GIT是一種基於Transformer解碼器的視覺語言模型,通過CLIP圖像標記和文本標記條件化訓練,適用於圖像描述生成、視覺問答等任務。
圖像生成文本 Transformers 支持多種語言
G
microsoft
199
19
Git Base Textcaps
MIT
GIT是一個基於Transformer的生成式圖像到文本模型,能夠將視覺內容轉換為描述性文本。
圖像生成文本 Transformers 支持多種語言
G
microsoft
482
8
Git Base Coco
MIT
GIT是基於CLIP圖像標記和文本標記的Transformer解碼器,用於圖像描述生成、視覺問答等任務。
圖像生成文本 Transformers 支持多種語言
G
microsoft
5,461
19
Vision Perceiver Conv
Apache-2.0
基於ImageNet預訓練的通用視覺感知器模型,採用卷積預處理和Transformer架構,支持圖像分類任務
圖像分類 Transformers
V
deepmind
7,127
6
S2t Small Mustc En Es St
MIT
一個用於端到端英語到西班牙語語音翻譯的語音到文本轉換器模型
語音識別 Transformers 支持多種語言
S
facebook
20
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase