# 大規模預訓練

Qwen3 8B Base
Apache-2.0
Qwen3-8B-Base 是通義大模型系列的最新一代產品,具有82億參數,支持119種語言,適用於多種自然語言處理任務。
大型語言模型 Transformers
Q
unsloth
5,403
1
Bart Large Teaser De V2
基於BART架構的大型德語文本處理模型,適用於多種自然語言處理任務
大型語言模型 Transformers
B
bettertextapp
123
0
Bart Large Paraphrase Generator En De V2
基於BART架構的大規模英德轉述生成模型
機器翻譯 Transformers
B
bettertextapp
121
0
Gemma 2 Llama Swallow 2b It V0.1
Gemma-2-Llama-Swallow系列是通過對gemma-2模型進行持續預訓練構建的,顯著增強了日文語言處理能力,同時保留原有英文能力。
大型語言模型 Transformers 支持多種語言
G
tokyotech-llm
61
1
LHM 1B
Apache-2.0
LHM是一個前饋式模型,可在數秒內從單張圖像重建可動畫的3D人體。
3D視覺 Safetensors 英語
L
3DAIGC
169
1
LHM 500M
Apache-2.0
LHM是一個前饋式模型,可在數秒內從單張圖像重建可動畫的3D人體。
3D視覺 英語
L
3DAIGC
132
4
De Wiki Mlm 13
基於未知數據集微調的語言模型,訓練過程中使用了Transformers庫
大型語言模型 Transformers
D
fpadovani
35
1
LHM
Apache-2.0
LHM是一個前饋模型,可在數秒內從單張圖像重建可動畫的3D人體。通過在大規模視頻數據集上使用圖像重建損失進行訓練,我們的模型對多樣化的現實場景展現出強大的泛化能力。
3D視覺 英語
L
3DAIGC
22
21
Izanami Wav2vec2 Large
其他
基於大規模日本電視廣播音頻數據預訓練的日語wav2vec2.0 Large模型
語音識別 日語
I
imprt
89
1
Kushinada Hubert Large
Apache-2.0
基於62,215小時日本電視廣播音頻數據預訓練的日語HuBERT Large模型,用於語音特徵提取
語音識別 日語
K
imprt
1,041
2
Kushinada Hubert Base
Apache-2.0
基於62,215小時日本電視廣播音頻數據預訓練的日語語音特徵提取模型
語音識別 日語
K
imprt
1,922
1
Instella 3B
其他
AMD基於Instinct MI300X GPU訓練的30億參數全開放語言模型家族,性能超越同規模開放模型
大型語言模型 Transformers
I
amd
3,048
34
Vit So400m Patch16 Siglip 512.v2 Webli
Apache-2.0
基於SigLIP 2的視覺Transformer模型,專為圖像特徵提取設計,適用於多語言視覺-語言任務。
文本生成圖像 Transformers
V
timm
2,766
0
Siglip2 Giant Opt Patch16 384
Apache-2.0
SigLIP 2 是基於 SigLIP 預訓練目標的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
26.12k
14
Siglip2 Large Patch16 512
Apache-2.0
SigLIP 2 是基於 SigLIP 的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
4,416
8
Owls 4B 180K
OWLS是一套Whisper風格的模型,旨在幫助研究人員理解語音模型的擴展特性,支持多語言語音識別和翻譯。
語音識別 其他
O
espnet
40
5
Llave 7B
Apache-2.0
LLaVE-7B是基於LLaVA-OneVision-7B模型的70億參數多模態嵌入模型,具備文本、圖像、多圖像和視頻的嵌入表示能力。
多模態融合 Transformers 英語
L
zhibinlan
1,389
5
Wav2vec2 Large Xls R 300m Ru
Apache-2.0
該模型是基於facebook/wav2vec2-xls-r-300m在common_voice_17_0數據集上微調的俄語自動語音識別(ASR)模型,詞錯誤率(WER)為0.195。
語音識別 Transformers
W
NLPVladimir
56
1
Mt0 Xxl Mt Q4 K M GGUF
Apache-2.0
該模型是從bigscience/mt0-xxl-mt通過llama.cpp轉換為GGUF格式的多語言文本生成模型,支持多種語言任務。
大型語言模型 支持多種語言
M
Markobes
14
1
C RADIOv2 G
其他
C-RADIOv2是NVIDIA開發的視覺特徵提取模型,提供多種規格版本,適用於圖像理解和密集處理任務。
Transformers
C
nvidia
648
11
CLIP ViT H 14 Laion2b S32b B79k
MIT
這是一個基於OpenCLIP框架、在LAION-2B英語子集上訓練的視覺語言模型,擅長零樣本圖像分類和跨模態檢索任務。
文本生成圖像
C
ModelsLab
132
0
Videomaev2 Giant
VideoMAEv2-giant是一個基於自監督學習的超大規模視頻分類模型,採用雙掩碼策略進行預訓練。
視頻處理 Safetensors
V
OpenGVLab
1,071
4
Videomaev2 Huge
VideoMAEv2-Huge是一個基於自監督學習的視頻特徵提取模型,在UnlabeldHybrid-1M數據集上進行了1200輪預訓練。
視頻處理 Safetensors
V
OpenGVLab
1,145
1
Videomaev2 Base
VideoMAEv2-Base是基於自監督學習的視頻特徵提取模型,採用雙重掩碼機制在UnlabeldHybrid-1M數據集上預訓練。
視頻處理
V
OpenGVLab
3,565
5
Longva 7B TPO
MIT
LongVA-7B-TPO是基於LongVA-7B通過時序偏好優化而來的視頻-文本模型,在長視頻理解任務中表現優異。
視頻生成文本 Transformers
L
ruili0
225
1
CLIP ViT B 32 Laion2b S34b B79k
MIT
基於OpenCLIP框架在LAION-2B英語數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
文本生成圖像
C
recallapp
17
0
Reloc3r 512
Reloc3r是一個簡潔高效的相機姿態估計框架,結合了預訓練的雙視角相對相機姿態迴歸網絡與多視角運動平均模塊。
姿態估計
R
siyan824
840
4
Aimv2 1b Patch14 224.apple Pt
AIM-v2是一個基於timm庫的圖像編碼器模型,具有10億參數規模,適用於圖像特徵提取任務。
圖像分類 Transformers
A
timm
198
0
Sam2 Hiera Large.fb R1024 2pt1
Apache-2.0
基於HieraDet圖像編碼器的SAM2模型,專注於高效圖像特徵提取
圖像分割 Transformers
S
timm
31
0
Eva Giant Patch14 Clip 224.laion400m
MIT
EVA CLIP模型是基於OpenCLIP和timm框架的視覺語言模型,支持零樣本圖像分類任務。
文本生成圖像
E
timm
124
0
Eva02 Large Patch14 Clip 336.merged2b
MIT
EVA02 CLIP 是一個基於 CLIP 架構的大規模視覺-語言模型,支持零樣本圖像分類等任務。
文本生成圖像
E
timm
197
0
Eva02 Large Patch14 Clip 224.merged2b
MIT
EVA CLIP模型是基於OpenCLIP和timm模型權重的視覺語言模型,支持零樣本圖像分類等任務。
圖像分類
E
timm
165
0
Eva02 Enormous Patch14 Clip 224.laion2b Plus
MIT
EVA-CLIP是基於CLIP架構的大規模視覺-語言模型,支持零樣本圖像分類等任務。
文本生成圖像
E
timm
54
0
Eva02 Enormous Patch14 Clip 224.laion2b
MIT
EVA-CLIP是一個基於CLIP架構的視覺-語言模型,支持零樣本圖像分類任務。
文本生成圖像
E
timm
38
0
Vit Large Patch14 Clip 224.dfn2b
其他
基於CLIP架構的視覺變換器模型,專注於圖像特徵提取,由蘋果公司發佈。
圖像分類 Transformers
V
timm
178
0
Vit Huge Patch14 Clip 224.dfn5b
其他
基於CLIP架構的ViT-Huge圖像編碼器,由蘋果公司發佈的DFN5B-CLIP模型,適用於視覺特徵提取任務。
圖像分類 Transformers
V
timm
128
0
Vit So400m Patch14 Siglip Gap 384.webli
Apache-2.0
基於SigLIP的視覺Transformer模型,採用全局平均池化處理圖像特徵
圖像分類 Transformers
V
timm
96
0
Vit So400m Patch14 Siglip 224.webli
Apache-2.0
基於SigLIP的視覺Transformer模型,僅包含圖像編碼器部分,採用原始注意力池化機制
圖像分類 Transformers
V
timm
123
1
Vit Giant Patch14 Clip 224.laion2b
Apache-2.0
基於CLIP架構的視覺Transformer模型,專為圖像特徵提取設計,使用laion2B數據集訓練
圖像分類 Transformers
V
timm
71
0
Vit Base Patch16 Clip 224.laion2b
Apache-2.0
基於CLIP架構的視覺Transformer模型,僅包含圖像編碼器部分,適用於圖像特徵提取任務
圖像分類 Transformers
V
timm
4,460
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase