Coco Instance Eomt Large 1280
MIT
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,展示了ViT在圖像分割任務中的潛力。
圖像分割
PyTorch
C
tue-mps
105
0
Ade20k Panoptic Eomt Giant 1280
MIT
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,揭示了ViT在圖像分割任務中的潛力。
圖像分割
A
tue-mps
96
0
Ade20k Panoptic Eomt Large 1280
MIT
該論文提出了一種基於Vision Transformer (ViT) 的圖像分割模型,揭示了ViT在圖像分割任務中的潛力。
圖像分割
A
tue-mps
129
0
Ade20k Panoptic Eomt Large 640
MIT
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,展示了ViT在圖像分割任務中的潛力。
圖像分割
A
tue-mps
105
0
Ade20k Panoptic Eomt Giant 640
MIT
該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力,通過特定架構調整使其適用於分割任務。
圖像分割
A
tue-mps
116
0
Coco Panoptic Eomt Large 1280
MIT
該論文提出了一種新的視角,將Vision Transformer (ViT) 視為圖像分割模型,並探討了其在圖像分割任務中的潛力。
圖像分割
PyTorch
C
tue-mps
119
0
Ade20k Semantic Eomt Large 512
MIT
該模型基於論文《你的ViT實際上是圖像分割模型》開發,是一種用於圖像分割任務的視覺Transformer模型。
圖像分割
PyTorch
A
tue-mps
108
0
Coco Panoptic Eomt Large 640
MIT
該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力,通過特定架構調整使其適用於分割任務。
圖像分割
C
tue-mps
217
0
Coco Instance Eomt Large 640
MIT
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,展示了ViT在圖像分割任務中的潛力。
圖像分割
C
tue-mps
99
0
Coco Panoptic Eomt Giant 1280
MIT
該模型通過重新思考Vision Transformer (ViT) 的架構,展示了其在圖像分割任務中的潛力。
圖像分割
PyTorch
C
tue-mps
90
0
Detr Finetuned Chess
Apache-2.0
這是一個基於DETR架構的目標檢測模型,專門針對國際象棋棋子識別任務進行了微調。
目標檢測
Transformers

D
aesat
29
1
Migician
Apache-2.0
魔術師是首個具備自由形式多圖像定位能力的多模態大語言模型,在複雜多圖像場景中實現精確定位,性能超越70B規模模型。
文本生成圖像
Transformers 英語

M
Michael4933
83
1
Yolov10x
YOLOv10x 是 YOLO 系列的最新版本,專注於即時端到端目標檢測,提供更高的檢測精度和更快的推理速度。
目標檢測
Y
jameslahm
1,145
41
Yolov10l
YOLOv10 是一個即時端到端目標檢測模型,由清華大學團隊開發,基於 YOLO 系列的最新改進版本。
目標檢測
Y
jameslahm
186
3
Yolov10b
YOLOv10 是一個即時端到端目標檢測模型,由清華大學團隊開發,基於 YOLO 系列的最新改進版本。
目標檢測
Safetensors
Y
jameslahm
97
2
Yolov10n
YOLOv10是清華大學提出的即時端到端目標檢測模型,具有高效和準確的特點。
目標檢測
Y
jameslahm
3,326
17
Yolov10s
YOLOv10是一種即時目標檢測模型,通過消除非極大值抑制(NMS)等後處理步驟,實現了高效且無額外開銷的目標檢測。
目標檢測
Y
kadirnar
15
0
Creek
Apache-2.0
從零構建的大語言模型,包含分詞器訓練、模型初始化、預訓練與指令微調全流程開源實現
大型語言模型
Transformers

C
maheer
21
1
Detr Resnet 50 Sku110k
Apache-2.0
該DETR模型在SKU110K目標檢測數據集上進行了端到端訓練,查詢數設置為400,適用於商品貨架檢測等場景。
目標檢測
Transformers

D
isalia99
4,066
2
Control V11p Sd15 Inpaint
Openrail
ControlNet v1.1 是一個基於擴散模型的神經網絡結構,用於通過額外條件控制圖像生成,特別適用於圖像修復任務。
圖像生成 其他
C
krnl
35
0
Mamba 3B Slimpj
Apache-2.0
基於Mamba架構的3B參數規模的語言模型,支持英文文本生成任務。
大型語言模型
Transformers 英語

M
Q-bert
56
3
Detr Resnet 50 Finetuned Cppe5
Apache-2.0
基於facebook/detr-resnet-50在圖像文件夾數據集上微調的DETR目標檢測模型
目標檢測
Transformers

D
tree12344
20
0
Segformer B0 Finetuned V0
其他
基於nvidia/mit-b0在tontokoton/artery-ultrasound-siit數據集上微調的圖像分割模型
圖像分割
Transformers

S
Pavarissy
15
0
Timesformer Bert Video Captioning
基於Timesformer和BERT架構的視頻字幕生成模型,能夠為視頻內容生成描述性字幕。
視頻生成文本
Transformers

T
AlexZigma
83
3
Encodec 48khz
MIT
EnCodec是由Meta AI開發的即時高保真神經音頻編解碼器,支持多種帶寬配置和流式處理。
音頻生成
Transformers

E
facebook
23.25k
32
Encodec 24khz
EnCodec是由Meta AI開發的高保真即時神經音頻編解碼器,採用端到端訓練方式,支持多種帶寬設置。
音頻生成
Transformers

E
facebook
534.08k
46
Donut Invoices
基於Donut架構微調的發票信息提取模型,免OCR實現文檔理解
圖像生成文本
Transformers

D
scharnot
70
2
Detr Resnet 50 Finetuned OCR
Apache-2.0
基於facebook/detr-resnet-50微調的OCR模型,用於目標檢測任務
文字識別
Transformers

D
ismadoukkali
15
1
Deformable Detr Box Supervised
Apache-2.0
Deformable DETR是基於Transformer架構的目標檢測模型,在LVIS數據集上訓練,支持1203個類別的物體檢測。
目標檢測
Transformers

D
facebook
193
0
Deformable Detr Detic
Apache-2.0
使用可變形檢測變換器架構,在包含1203個類別的LVIS數據集上訓練的目標檢測模型
目標檢測
Transformers

D
facebook
792
8
Imclasif Genres V001
這是一個基於HuggingPics生成的圖像分類模型,主要用於對特定類型(genres)的圖像進行分類。
圖像分類
Transformers

I
sanali209
21
0
Gender Classification
一個基於HuggingPics生成的圖像分類模型,用於識別圖像中的性別(男性或女性)。
圖像分類
Transformers

G
Enverrr
13
0
Yolos Small Balloon
YOLOS是一種使用視覺Transformer(ViT)架構的目標檢測模型,通過DETR損失訓練,在COCO和Matterport氣球數據集上微調。
目標檢測
Transformers

Y
zoheb
101
1
Re2g Qry Encoder Fever
Apache-2.0
Re2G是一個結合神經初始檢索和重排序的生成模型,用於知識密集型任務。該問題編碼器是Re2G系統的組成部分,用於將問題編碼為向量以進行檢索。
文本嵌入
Transformers

R
ibm-research
17
0
Re2g Qry Encoder Nq
Apache-2.0
Re2G是一個結合神經檢索、重排序和生成的端到端系統,用於知識密集型任務。該模型是其NQ(Natural Questions)問題編碼器組件。
問答系統
Transformers

R
ibm-research
14
0
Cifar 10 Vgg Pretrained
基於PyTorch實現的圖像分類模型,能夠識別多種常見物體類別
圖像分類
Transformers

C
amehta633
22
0
Kss Tts Train Jets Raw Phn Null G2pk Train.total Count.ave
這是一個基於ESPnet2框架訓練的韓語文本轉語音(TTS)模型,使用KSS數據集訓練,採用JETS架構。
語音合成 韓語
K
imdanboy
60
0
Wav2vec2 Base Timit Demo Colab0
Apache-2.0
該模型是基於facebook/wav2vec2-base微調的語音識別模型,在TIMIT數據集上取得了0.5635的詞錯誤率。
語音識別
Transformers

W
sherry7144
26
0
Wav2vec2 Base Timit Demo Colab
Apache-2.0
基於facebook/wav2vec2-base模型在TIMIT數據集上微調的語音識別模型,用於演示目的
語音識別
Transformers

W
moaiz237
24
0
Gunnarthor Talromur A Fastspeech2
基於ESPnet框架和talromur數據集訓練的FastSpeech2文本轉語音模型,支持冰島語語音合成。
語音合成 英語
G
espnet
50
0
- 1
- 2
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98