Vjepa2 Vitl Fpc64 256
MIT
V-JEPA 2是Meta旗下FAIR團隊開發的前沿視頻理解模型,擴展了VJEPA的預訓練目標,具備業界領先的視頻理解能力。
視頻處理
Transformers

V
facebook
109
27
Resencl OpenMind MAE
首個針對3D醫學影像數據的自監督學習全面基準研究模型,提供多種預訓練檢查點
3D視覺
R
AnonRes
20
0
Webssl Dino2b Heavy2b 224
20億參數的自監督視覺Transformer模型,基於嚴格篩選的網絡圖像數據訓練,特別優化圖表和文本理解能力
圖像分類
Transformers

W
facebook
24
0
Dinov2 Base ONNX
這是facebook/dinov2-base模型的ONNX格式版本,適用於計算機視覺任務。

D
onnx-community
19
0
Midnight
MIT
Midnight-12k是一個病理學基礎模型,通過自監督學習在少量數據上訓練,性能媲美領先模型
圖像分類 英語
M
kaiko-ai
516
4
Izanami Wav2vec2 Large
其他
基於大規模日本電視廣播音頻數據預訓練的日語wav2vec2.0 Large模型
語音識別 日語
I
imprt
89
1
Kushinada Hubert Base
Apache-2.0
基於62,215小時日本電視廣播音頻數據預訓練的日語語音特徵提取模型
語音識別 日語
K
imprt
1,922
1
AV HuBERT MuAViC Ru
AV-HuBERT是一種視聽語音識別模型,基於MuAViC多語言視聽語料庫訓練,結合音頻和視覺模態實現魯棒性能。
音頻生成文本
Transformers

A
nguyenvulebinh
91
1
Rnafm
基於非編碼RNA數據、採用掩碼語言建模(MLM)目標預訓練的RNA基礎模型
蛋白質模型 其他
R
multimolecule
6,791
1
Dna2vec
MIT
基於Transformer架構的DNA序列嵌入模型,支持序列比對和基因組學應用
分子模型
Transformers

D
roychowdhuryresearch
557
1
Voc2vec As Pt
Apache-2.0
voc2vec是一個專門為非語言人類數據設計的基礎模型,基於wav2vec 2.0框架構建。
音頻分類
Transformers 英語

V
alkiskoudounas
31
0
Videomaev2 Base
VideoMAEv2-Base是基於自監督學習的視頻特徵提取模型,採用雙重掩碼機制在UnlabeldHybrid-1M數據集上預訓練。
視頻處理
V
OpenGVLab
3,565
5
Hubert Ecg Small
面向心電圖分析的自監督預訓練基礎模型,支持164種心血管病症檢測
分子模型
Transformers

H
Edoardo-BS
535
2
TITAN
TITAN是一個多模態全切片基礎模型,通過視覺自監督學習和視覺-語言對齊進行預訓練,用於病理學圖像分析。
多模態融合 英語
T
MahmoodLab
213.39k
37
Path Foundation
其他
Path Foundation是一個用於組織病理學應用的機器學習模型,通過自監督學習訓練,能夠從H&E染色切片中生成384維嵌入向量,用於高效訓練分類器模型。
圖像分類 英語
P
google
220
39
RS M CLIP
MIT
面向遙感領域的多語言視覺-語言預訓練模型,支持10種語言的圖像-文本跨模態任務
圖像生成文本 支持多種語言
R
joaodaniel
248
1
Rnabert
RNABERT是基於非編碼RNA(ncRNA)的預訓練模型,採用掩碼語言建模(MLM)和結構對齊學習(SAL)目標。
分子模型 其他
R
multimolecule
8,166
4
AV HuBERT
基於MuAViC數據集的多語言視聽語音識別模型,結合音頻和視覺模態實現魯棒性能
音頻生成文本
Transformers

A
nguyenvulebinh
683
3
Ijepa Vitg16 22k
I-JEPA是一種自監督學習方法,通過圖像部分表徵預測同一圖像其他部分的表徵,無需依賴手工數據變換或填充像素級細節。
圖像分類
Transformers

I
facebook
14
3
Ijepa Vith16 1k
I-JEPA是一種自監督學習方法,通過圖像部分表徵預測同一圖像其他部分的表徵,無需依賴預設的手工數據變換或像素級細節填充。
圖像分類
Transformers

I
facebook
153
0
Ijepa Vith14 22k
I-JEPA是一種自監督學習方法,通過圖像部分表徵預測同一圖像其他部分的表徵,無需依賴預設的手工數據變換或像素級細節填充。
圖像分類
Transformers

I
facebook
48
0
Ijepa Vith14 1k
I-JEPA是一種自監督學習方法,通過圖像部分表徵預測同一圖像其他部分的表徵,無需依賴手工數據變換或填充像素級細節。
圖像分類
Transformers

I
facebook
8,239
10
Dinov2.large.patch 14.reg 4
Apache-2.0
DINOv2是一個基於視覺變換器的圖像特徵提取模型,通過引入寄存器機制提升了特徵提取能力。
D
refiners
15
0
Dinov2.giant.patch 14.reg 4
Apache-2.0
DINOv2是一個基於視覺變換器(ViT)的圖像特徵提取模型,通過引入寄存器機制提升了特徵提取能力。
D
refiners
17
0
Dinov2.large.patch 14
Apache-2.0
DINOv2 large是基於自監督學習的大規模視覺特徵提取模型,能夠生成魯棒的圖像特徵表示。
D
refiners
20
0
Rad Dino Maira 2
其他
RAD-DINO-MAIRA-2 是一種基於DINOv2自監督學習訓練的視覺變換器模型,專門用於編碼胸部X光片圖像。

R
microsoft
9,414
11
Dasheng 1.2B
Apache-2.0
大聲是一個基於大規模自監督學習訓練的通用音頻編碼器,能夠捕捉跨語音、音樂和環境音等多領域的豐富音頻信息。
音頻分類
Transformers

D
mispeech
135
0
Wav2vec2 Base BirdSet XCL
wav2vec 2.0 是一個自監督學習框架,用於語音表示學習,能夠從未標記的音頻數據中學習語音特徵。
音頻分類
Transformers

W
DBD-research-group
177
0
Rad Dino
其他
基於自監督學習DINOv2訓練的視覺Transformer模型,專門用於編碼胸部X光影像
圖像分類
Transformers

R
microsoft
411.96k
48
Phikon V2
其他
Phikon-v2是基於Vision Transformer Large架構的模型,採用Dinov2自監督方法在PANCAN-XL數據集上進行預訓練,專門用於組織學圖像分析。
圖像分類
Transformers 英語

P
owkin
64.20k
15
Vqvae
MIT
VQVAE是基於VQ-VAE架構的視頻生成模型,克隆自VideoGPT項目,旨在將模型轉換為Hugging Face格式以便更便捷地加載。
視頻處理
Transformers

V
hpcai-tech
179
6
Ahma 7B
Apache-2.0
Ahma-7B是基於Meta Llama(v1)架構的70億參數僅解碼器Transformer模型,完全使用芬蘭語從頭預訓練。
大型語言模型
Transformers 其他

A
Finnish-NLP
201
8
Dinov2 Large
DINOv2是Facebook Research發佈的視覺模型,通過自監督學習提取通用視覺特徵,適用於多種下游任務。

D
Xenova
82
1
Vit Small Patch8 224.lunit Dino
其他
基於視覺變換器(ViT)的圖像分類模型,在3300萬個組織學切片上使用DINO自監督學習方法訓練,適用於病理圖像分類任務。
圖像分類
V
1aurent
167
1
Phikon
其他
Phikon是基於iBOT訓練的組織病理學自監督學習模型,主要用於從組織學圖像塊中提取特徵。
圖像分類
Transformers 英語

P
owkin
741.63k
30
Wav2vec2 Base Audioset
基於HuBERT架構的音頻表徵學習模型,在完整AudioSet數據集上預訓練完成
音頻分類
Transformers

W
ALM
2,191
0
Hubert Base Audioset
基於HuBERT架構的音頻表徵模型,在完整AudioSet數據集上預訓練,適用於通用音頻任務
音頻分類
Transformers

H
ALM
345
2
Hubert Large Audioset
基於HuBERT架構的Transformer模型,在完整AudioSet數據集上進行預訓練,適用於通用音頻表徵學習任務。
音頻分類
Transformers

H
ALM
79
0
Wav2vec2 Large Audioset
基於HuBERT架構的音頻表徵模型,在完整AudioSet數據集上預訓練,適用於通用音頻任務
音頻分類
Transformers

W
ALM
43
0
Pubchemdeberta Augmented
TwinBooster是一個基於PubChem生物測定語料庫微調的DeBERTa V3基礎模型,結合Barlow Twins自監督學習方法和梯度提升技術,用於增強分子屬性預測。
分子模型
Transformers 英語

P
mschuh
25
0
- 1
- 2
- 3
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98