# 小規模預訓練

Arshstory
MIT
基於Llama架構的5億參數文本生成模型,專為創作故事而設計。
文本生成 Transformers
A
arshiaafshani
131
1
OPENCLIP SigLIP Tiny 14 Distill SigLIP 400m Cc9m
MIT
一個基於SigLIP架構的輕量級視覺語言模型,通過蒸餾技術從更大的SigLIP-400m模型中提取知識,適用於零樣本圖像分類任務。
圖像分類
O
PumeTu
30
0
Llama 3.2 400M Amharic
這是一個基於Meta公司Llama-3.2-1B模型的精簡版本,專門針對阿姆哈拉語進行預訓練,包含4億參數,上下文長度為1024個標記。
大型語言模型 Transformers 其他
L
rasyosef
310
3
Vit Betwixt Patch32 Clip 224.tinyclip Laion400m
MIT
基於ViT架構的小型CLIP模型,適用於零樣本圖像分類任務,訓練於LAION-400M數據集。
圖像分類
V
timm
113
1
GPT NeoX 1.3B Viet Final GGUF
基於31.3GB越南語數據預訓練的1.3B參數GPT-NeoX模型
大型語言模型 英語
G
afrideva
170
1
Twibert
MIT
TwiBERT是一款專為加納及西非地區廣泛使用的特威語設計的預訓練語言模型
大型語言模型 Transformers 其他
T
sakrah
16
3
Roberta Base 100M 1
基於1B詞元規模預訓練的RoBERTa基礎模型,驗證困惑度為3.93,適用於英語文本處理任務。
大型語言模型
R
nyu-mll
63
0
It5 Small
Apache-2.0
IT5是首個針對意大利語進行大規模序列到序列Transformer模型預訓練的模型家族,遵循原始T5模型的方法。
大型語言模型 其他
I
gsarti
220
2
Roberta Base 100M 3
在1M至1B詞元規模數據集上預訓練的RoBERTa變體,包含BASE和MED-SMALL兩種規格,適用於資源有限場景下的自然語言處理任務
大型語言模型
R
nyu-mll
18
0
Gpt2 Small Indonesian 522M
MIT
這是一個基於印尼語維基百科數據預訓練的GPT2-small模型,專注於印尼語文本生成任務。
大型語言模型 其他
G
cahya
1,900
9
Roformer Chinese Char Small
RoFormer是基於旋轉位置編碼(Rotary Position Embedding)增強的中文Transformer模型,適用於文本填充任務。
大型語言模型 中文
R
junnyu
24
0
Roberta Med Small 1M 1
基於1M tokens小規模數據預訓練的RoBERTa模型,採用MED-SMALL架構,適用於文本理解任務。
大型語言模型
R
nyu-mll
23
1
Roberta Base 10M 1
基於不同規模數據集(1M-1B詞元)預訓練的RoBERTa系列模型,包含BASE和MED-SMALL兩種規格
大型語言模型
R
nyu-mll
13
1
Kinyaroberta Small
這是一個基於基尼亞盧旺達語數據集、採用掩碼語言建模(MLM)目標預訓練的RoBERTa模型,使用無大小寫區分標記進行預訓練。
大型語言模型 Transformers
K
jean-paul
38
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase