連接全球AI模型 - 賦能下一代應用

從通用到專業 - 一站式AI模型平台

熱門

最新

點贊高

篩選

商用模型

開源模型

分類

框架

開源許可

語言

已選條件:

重置

有16730個模型符合條件

熱門

最新

點贊高

Nsfw Image Detection

基於ViT架構的NSFW圖像分類模型，通過監督學習在ImageNet-21k數據集上預訓練，並在80,000張圖像上微調，用於區分正常和NSFW內容。

Fairface Age Image Detection

基於Vision Transformer架構的圖像分類模型，在ImageNet-21k數據集上預訓練，適用於多類別圖像分類任務

Clip Vit Large Patch14

CLIP是由OpenAI開發的視覺-語言模型，通過對比學習將圖像和文本映射到共享的嵌入空間，支持零樣本圖像分類

圖像生成文本

Phi-2是微軟開發的一個小型但強大的語言模型，具有27億參數，專注於高效推理和高質量文本生成。

大型語言模型支持多種語言

Chronos T5 Small

Chronos是基於語言模型架構的預訓練時間序列預測模型家族，通過量化和縮放將時間序列轉化為token序列進行訓練，適用於概率預測任務。

基於掩碼語言建模目標預訓練的大型英語語言模型，採用改進的BERT訓練方法

大型語言模型英語

Clip Vit Base Patch32

CLIP是由OpenAI開發的多模態模型，能夠理解圖像和文本之間的關係，支持零樣本圖像分類任務。

圖像生成文本

Distilbert Base Uncased

DistilBERT是BERT基礎模型的蒸餾版本，在保持相近性能的同時更輕量高效，適用於序列分類、標記分類等自然語言處理任務。

大型語言模型英語

Clipseg Rd64 Refined

CLIPSeg是一種基於文本與圖像提示的圖像分割模型，支持零樣本和單樣本圖像分割任務。

Xlm Roberta Base

XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型，採用掩碼語言建模目標進行訓練。

大型語言模型支持多種語言

基於Transformer架構的英語預訓練模型，通過掩碼語言建模目標在海量文本上訓練，支持文本特徵提取和下游任務微調

大型語言模型英語

Vit Face Expression

基於視覺變換器（ViT）微調的面部情緒識別模型，支持7種表情分類

OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件，參數量從1.25億到1750億，旨在對標GPT-3系列性能，同時促進大規模語言模型的開放研究。

大型語言模型英語

基於transformers庫的預訓練模型，適用於多種NLP任務

大型語言模型

Siglip So400m Patch14 384

SigLIP是基於WebLi數據集預訓練的視覺語言模型，採用改進的sigmoid損失函數，優化了圖像-文本匹配任務。

圖像生成文本

Clip Vit Large Patch14 336

基於Vision Transformer架構的大規模視覺語言預訓練模型，支持圖像與文本的跨模態理解

文本生成圖像

Llama 3.1 8B Instruct

Llama 3.1是Meta推出的多語言大語言模型系列，包含8B、70B和405B參數規模，支持8種語言和代碼生成，優化了多語言對話場景。

大型語言模型

Transformers 支持多種語言

T5基礎版是由Google開發的文本到文本轉換Transformer模型，參數規模2.2億，支持多語言NLP任務。

大型語言模型支持多種語言

Xlm Roberta Large

XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型，採用掩碼語言建模目標進行訓練。

大型語言模型支持多種語言

Distilbert Base Uncased Finetuned Sst 2 English

基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型，準確率91.3%

文本分類英語

基於DINOv2方法訓練的小尺寸視覺Transformer模型，通過自監督學習提取圖像特徵

Wav2vec2 Large Xlsr 53 Portuguese

這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型，基於Common Voice 6.1數據集訓練，支持葡萄牙語語音轉文本。

語音識別其他

Vit Base Patch16 224

基於ImageNet-21k預訓練和ImageNet微調的視覺變換器模型，用於圖像分類任務

Whisper Large V3

Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型，在超過500萬小時的標註數據上訓練，具有強大的跨數據集和跨領域泛化能力。

語音識別支持多種語言

Clip Vit Base Patch16

CLIP是由OpenAI開發的多模態模型，通過對比學習將圖像和文本映射到共享的嵌入空間，實現零樣本圖像分類能力。

圖像生成文本

Whisper Large V3 Turbo

Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型，經過超過500萬小時標記數據的訓練，在零樣本設置下展現出強大的泛化能力。

Transformers 支持多種語言

Wav2vec2 Large Xlsr 53 Russian

基於facebook/wav2vec2-large-xlsr-53模型微調的俄語語音識別模型，支持16kHz採樣率的語音輸入

語音識別其他

基於英語語料預訓練的BART模型，專門針對CNN每日郵報數據集進行微調，適用於文本摘要任務

文本生成英語

Wav2vec2 Large Xlsr 53 Chinese Zh Cn

基於facebook/wav2vec2-large-xlsr-53模型微調的中文語音識別模型，支持16kHz採樣率的語音輸入。

語音識別中文

FashionCLIP是基於CLIP開發的視覺語言模型，專門針對時尚領域進行微調，能夠生成通用產品表徵。

文本生成圖像

Transformers 英語

Jina Embeddings V3

Jina Embeddings V3 是一個多語言句子嵌入模型，支持超過100種語言，專注於句子相似度和特徵提取任務。

Transformers 支持多種語言

Bart Large Mnli

基於BART-large架構，在MultiNLI數據集上微調的零樣本分類模型

大型語言模型

T5-Small是谷歌開發的6000萬參數文本轉換模型，採用統一文本到文本框架處理多種NLP任務

大型語言模型支持多種語言

Esm2 T36 3B UR50D

ESM-2是基於掩碼語言建模目標訓練的新一代蛋白質模型，適用於各類以蛋白質序列為輸入的下游任務微調。

蛋白質模型

FLAN-T5是基於T5模型通過指令微調優化的語言模型，支持多語言任務處理，在相同參數量下性能優於原T5模型。

大型語言模型支持多種語言

ALBERT是基於Transformer架構的輕量級預訓練語言模型，通過參數共享機制減少內存佔用，適用於英語文本處理任務。

大型語言模型英語

Wav2vec2 Large Xlsr 53 Dutch

基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型，在Common Voice和CSS10數據集上訓練，支持16kHz音頻輸入。

語音識別其他

Wav2vec2 Large Xlsr 53 Japanese

基於facebook/wav2vec2-large-xlsr-53模型微調的日語語音識別模型，支持16kHz採樣率的語音輸入

語音識別日語

Blip Image Captioning Base

BLIP是一個先進的視覺-語言預訓練模型，擅長圖像描述生成任務，支持條件式和非條件式文本生成。

圖像生成文本

Distilbert Base Multilingual Cased

DistilBERT 是 BERT 基礎多語言模型的蒸餾版本，保留了 BERT 的 97% 性能但參數更少、速度更快。支持 104 種語言，適用於多種自然語言處理任務。

大型語言模型

Transformers 支持多種語言

DistilGPT2是GPT-2的輕量級蒸餾版本，擁有8200萬參數，保留了GPT-2的核心文本生成能力，同時體積更小、速度更快。

大型語言模型英語

Xlm Roberta Base Language Detection

基於XLM-RoBERTa的多語言檢測模型，支持20種語言的文本分類

Transformers 支持多種語言

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase