
連接全球AI模型 - 賦能下一代應用
從通用到專業 - 一站式AI模型平台
篩選
分類
不限大型語言模型圖像生成語音識別文本嵌入圖像分類文本分類機器翻譯文本生成圖像圖像生成文本序列標註文本生成語音合成問答系統圖像分割音頻分類目標檢測文本生成視頻文字識別視頻處理3D視覺多模態融合分子模型視頻生成文本對話系統蛋白質模型音頻生成氣候模型文本生成音頻圖像增強物理學模型說話人處理知識圖譜人臉相關音頻生成文本姿態估計聲音分離多模態對齊音頻增強材料科學
框架
不限TransformersPyTorchSafetensorsTensorBoard其他
開源許可
不限Apache-2.0MITCCOpenrailGpl-3.0Bsd-3-clause其他
語言
不限英語中文西班牙語阿拉伯語法語德語日語韓語其他
有16730個模型符合條件
Nsfw Image Detection
Apache-2.0
基於ViT架構的NSFW圖像分類模型,通過監督學習在ImageNet-21k數據集上預訓練,並在80,000張圖像上微調,用於區分正常和NSFW內容。
圖像分類
Transformers

N
Falconsai
82.4M
588
Fairface Age Image Detection
Apache-2.0
基於Vision Transformer架構的圖像分類模型,在ImageNet-21k數據集上預訓練,適用於多類別圖像分類任務
圖像分類
Transformers

F
dima806
76.6M
10
Clip Vit Large Patch14
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類
圖像生成文本
C
openai
44.7M
1,710
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Chronos T5 Small
Apache-2.0
Chronos是基於語言模型架構的預訓練時間序列預測模型家族,通過量化和縮放將時間序列轉化為token序列進行訓練,適用於概率預測任務。
氣候模型
Transformers

C
amazon
22.8M
66
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Clipseg Rd64 Refined
Apache-2.0
CLIPSeg是一種基於文本與圖像提示的圖像分割模型,支持零樣本和單樣本圖像分割任務。
圖像分割
Transformers

C
CIDAS
10.0M
122
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Vit Face Expression
Apache-2.0
基於視覺變換器(ViT)微調的面部情緒識別模型,支持7種表情分類
人臉相關
Transformers

V
trpakov
9.2M
66
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本
Transformers

S
google
6.1M
526
Clip Vit Large Patch14 336
基於Vision Transformer架構的大規模視覺語言預訓練模型,支持圖像與文本的跨模態理解
文本生成圖像
Transformers

C
openai
5.9M
241
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
5.3M
431
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型,準確率91.3%
文本分類 英語
D
distilbert
5.2M
746
Dinov2 Small
Apache-2.0
基於DINOv2方法訓練的小尺寸視覺Transformer模型,通過自監督學習提取圖像特徵
圖像分類
Transformers

D
facebook
5.0M
31
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型,基於Common Voice 6.1數據集訓練,支持葡萄牙語語音轉文本。
語音識別 其他
W
jonatasgrosman
4.9M
32
Vit Base Patch16 224
Apache-2.0
基於ImageNet-21k預訓練和ImageNet微調的視覺變換器模型,用於圖像分類任務
圖像分類
V
google
4.8M
775
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Clip Vit Base Patch16
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
圖像生成文本
C
openai
4.6M
119
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,經過超過500萬小時標記數據的訓練,在零樣本設置下展現出強大的泛化能力。
語音識別
Transformers 支持多種語言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的俄語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 其他
W
jonatasgrosman
3.9M
54
Bart Large Cnn
MIT
基於英語語料預訓練的BART模型,專門針對CNN每日郵報數據集進行微調,適用於文本摘要任務
文本生成 英語
B
facebook
3.8M
1,364
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的中文語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 中文
W
jonatasgrosman
3.8M
110
Fashion Clip
MIT
FashionCLIP是基於CLIP開發的視覺語言模型,專門針對時尚領域進行微調,能夠生成通用產品表徵。
文本生成圖像
Transformers 英語

F
patrickjohncyh
3.8M
222
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Bart Large Mnli
MIT
基於BART-large架構,在MultiNLI數據集上微調的零樣本分類模型
大型語言模型
B
facebook
3.7M
1,364
T5 Small
Apache-2.0
T5-Small是谷歌開發的6000萬參數文本轉換模型,採用統一文本到文本框架處理多種NLP任務
大型語言模型 支持多種語言
T
google-t5
3.7M
450
Esm2 T36 3B UR50D
MIT
ESM-2是基於掩碼語言建模目標訓練的新一代蛋白質模型,適用於各類以蛋白質序列為輸入的下游任務微調。
蛋白質模型
Transformers

E
facebook
3.5M
22
Flan T5 Base
Apache-2.0
FLAN-T5是基於T5模型通過指令微調優化的語言模型,支持多語言任務處理,在相同參數量下性能優於原T5模型。
大型語言模型 支持多種語言
F
google
3.3M
862
Albert Base V2
Apache-2.0
ALBERT是基於Transformer架構的輕量級預訓練語言模型,通過參數共享機制減少內存佔用,適用於英語文本處理任務。
大型語言模型 英語
A
albert
3.1M
121
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型,在Common Voice和CSS10數據集上訓練,支持16kHz音頻輸入。
語音識別 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的日語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 日語
W
jonatasgrosman
2.9M
33
Blip Image Captioning Base
Bsd-3-clause
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
圖像生成文本
Transformers

B
Salesforce
2.8M
688
Distilbert Base Multilingual Cased
Apache-2.0
DistilBERT 是 BERT 基礎多語言模型的蒸餾版本,保留了 BERT 的 97% 性能但參數更少、速度更快。支持 104 種語言,適用於多種自然語言處理任務。
大型語言模型
Transformers 支持多種語言

D
distilbert
2.8M
187
Distilgpt2
Apache-2.0
DistilGPT2是GPT-2的輕量級蒸餾版本,擁有8200萬參數,保留了GPT-2的核心文本生成能力,同時體積更小、速度更快。
大型語言模型 英語
D
distilbert
2.7M
527
Xlm Roberta Base Language Detection
MIT
基於XLM-RoBERTa的多語言檢測模型,支持20種語言的文本分類
文本分類
Transformers 支持多種語言

X
papluca
2.7M
333