# 高效預訓練

Open Qwen2VL
CC
Open-Qwen2VL是一個多模態模型,能夠接收圖像和文本作為輸入並生成文本輸出。
圖像生成文本 英語
O
weizhiwang
568
15
Olmo2 11B SuperBPE T180k
Apache-2.0
110億參數大語言模型,採用創新的SuperBPE分詞器訓練,支持超詞單元識別和子詞分詞能力。
大型語言模型 Transformers 英語
O
UW
29
2
Genmedclip
MIT
GenMedClip 是一個基於 open_clip 庫的零樣本圖像分類模型,專注於醫學圖像分析。
圖像分類
G
wisdomik
40
0
Gte Multilingual Mlm Base
Apache-2.0
mGTE系列多語言文本編碼器,支持75種語言,最大上下文長度8192,基於BERT+RoPE+GLU架構,在GLUE和XTREME-R基準上表現優異
大型語言模型 Safetensors
G
Alibaba-NLP
342
12
Llama3 German 8B 32k
基於Meta Llama3-8B優化的德語大語言模型,通過650億德語語料持續預訓練,專為德語優化並支持32k長上下文
大型語言模型 Transformers 德語
L
DiscoResearch
91
13
Rho Math 1b V0.1
MIT
Rho-1是一個專注於數學領域的語言模型,通過選擇性語言建模(SLM)方法進行預訓練,顯著提升了數學問題解決的準確率。
大型語言模型 Transformers 英語
R
microsoft
1,451
15
Tinyllama V1.1 Math Code
Apache-2.0
TinyLlama是一個11億參數的緊湊型語言模型,採用與Llama 2相同的架構和分詞器,適用於計算和內存資源有限的應用場景。
大型語言模型 Transformers 英語
T
TinyLlama
3,436
11
Tinyllama V1.1
Apache-2.0
TinyLlama是一個11億參數的小型語言模型,採用與Llama 2相同的架構和分詞器,適用於資源受限的應用場景。
大型語言模型 Transformers 英語
T
TinyLlama
42.11k
92
Ltg Bert Babylm
基於100MW BabyLM挑戰賽數據集訓練的BERT變體,優化了在中等規模語料庫上的表現
大型語言模型 Transformers 英語
L
ltg
594
2
Tinyllama 1.1B Intermediate Step 1431k 3T
Apache-2.0
TinyLlama是一個1.1B參數的Llama模型,預訓練使用了3萬億標記,旨在提供緊湊高效的文本生成能力。
大型語言模型 Transformers 英語
T
TinyLlama
25.04k
173
Tinyllama 1.1B Intermediate Step 1195k Token 2.5T
Apache-2.0
TinyLlama是一個1.1B參數的小型Llama模型,在3萬億token上預訓練,設計用於資源有限的環境。
大型語言模型 Transformers 英語
T
TinyLlama
419
52
M2 Bert 80M 2k Retrieval
Apache-2.0
這是一個80M參數的M2-BERT預訓練檢查點,序列長度為2048,並已針對長上下文檢索任務進行微調。
文本嵌入 Transformers 英語
M
togethercomputer
538
15
Retromae Small Cs
基於RetroMAE目標在捷克語網絡語料庫上預訓練的BERT-small模型,由Seznam.cz開發,適用於多種自然語言處理任務。
文本嵌入 Transformers 其他
R
Seznam
7,759
5
Sheared LLaMA 2.7B
Apache-2.0
Sheared-LLaMA-2.7B是基於Llama-2-7b通過剪枝和繼續預訓練得到的輕量級語言模型,僅消耗50B tokens預算。
大型語言模型 Transformers
S
princeton-nlp
1,131
60
Sheared LLaMA 1.3B
Apache-2.0
Sheared-LLaMA-1.3B是基於LLaMA-2-7B通過結構化剪枝和持續預訓練得到的高效語言模型
大型語言模型 Transformers
S
princeton-nlp
11.09k
94
Tinyllama 1.1B Step 50K 105b
Apache-2.0
TinyLlama是一個1.1B參數的Llama模型,計劃在3萬億token上進行預訓練,優化後可在16塊A100-40G GPU上90天內完成訓練。
大型語言模型 Transformers 英語
T
TinyLlama
14.41k
133
Codet5p 16b
Bsd-3-clause
CodeT5+ 16B是一個開源的代碼大語言模型家族,採用編碼器-解碼器架構,支持多種模式,適用於廣泛的代碼理解與生成任務。
大型語言模型 Transformers
C
Salesforce
292
65
Videomae Small Finetuned Kinetics
VideoMAE是視頻領域的掩碼自編碼器模型,通過自監督預訓練並在Kinetics-400數據集上進行監督微調,適用於視頻分類任務。
視頻處理 Transformers
V
MCG-NJU
2,152
1
Videomae Huge Finetuned Kinetics
VideoMAE是基於掩碼自編碼器(MAE)的視頻預訓練模型,通過自監督學習在Kinetics-400數據集上微調,適用於視頻分類任務。
視頻處理 Transformers
V
MCG-NJU
2,984
4
Videomae Base
VideoMAE是基於掩碼自編碼器(MAE)的視頻自監督預訓練模型,通過預測被掩碼視頻塊的像素值學習視頻內部表示。
視頻處理 Transformers
V
MCG-NJU
48.66k
45
Efficient Mlm M0.15
該模型研究了在掩碼語言建模中遮蔽15%內容的有效性,採用了前置層歸一化方法。
大型語言模型 Transformers
E
princeton-nlp
116
1
Distilbert Mlm 750k
DistilBERT 是 BERT 的輕量級蒸餾版本,保留了大部分性能但參數更少。
大型語言模型 Transformers
D
vocab-transformers
26
0
Distilcamembert Base
MIT
DistilCamemBERT是法語CamemBERT模型的蒸餾版本,通過知識蒸餾技術顯著降低模型複雜度,同時保持性能。
大型語言模型 Transformers 法語
D
cmarkea
15.79k
31
Arabictransformer Base
基於漏斗Transformer和ELECTRA目標的高效阿拉伯語模型,計算成本低且性能優越
大型語言模型 Transformers
A
sultan
17
1
Rugpt3small Based On Gpt2
由SberDevices團隊開發的俄語預訓練Transformer語言模型,基於GPT2架構,支持1024序列長度,訓練數據達800億token。
大型語言模型 其他
R
ai-forever
46.92k
42
Bertin Roberta Base Spanish
BERTIN是一系列基於BERT的西班牙語模型,當前模型是在西班牙語mC4部分上使用Flax從頭訓練的RoBERTa-base模型。
大型語言模型 西班牙語
B
bertin-project
1,845
36
Chinese Electra Large Generator
Apache-2.0
中文ELECTRA是由哈工大-訊飛聯合實驗室基於谷歌ELECTRA模型開發的中文預訓練模型,具有參數量小但性能優越的特點。
大型語言模型 Transformers 中文
C
hfl
14
0
Roberta Base Wechsel Swahili
MIT
使用WECHSEL方法訓練的RoBERTa基礎模型,專門針對斯瓦希里語進行優化,實現高效跨語言遷移。
大型語言模型 Transformers 其他
R
benjamin
222
1
Bert Base Uncased Sparse 90 Unstructured Pruneofa
Apache-2.0
這是一個稀疏預訓練的BERT-Base模型,通過一次性修剪方法實現90%權重稀疏化,適用於多種語言任務微調。
大型語言模型 Transformers 英語
B
Intel
178
0
Chinese Mobile Bert
Apache-2.0
該模型基於2.5億中文語料庫,採用MobileBERT架構進行預訓練,訓練週期為15天,在單張A100顯卡上完成100萬步迭代。
大型語言模型 Transformers
C
Ayou
25
5
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase