Modernbert Morocco
該模型是基於ModernBERT-base在未知數據集上微調的版本,具體用途和性能待補充
下載量 23
發布時間 : 2/20/2025
模型概述
基於ModernBERT-base架構的微調模型,具體功能取決於微調任務
模型特點
基於ModernBERT架構
使用ModernBERT-base作為基礎模型,可能包含現代BERT架構的改進
高效微調
採用相對較大的批次大小(總訓練批大小128)和梯度累積進行訓練
模型能力
文本理解
文本表示學習
使用案例
自然語言處理
文本分類
可用於文本分類任務
性能指標待補充
問答系統
可能適用於問答系統應用
性能指標待補充
🚀 模型
該模型是 answerdotai/ModernBERT-base 在未知數據集上的微調版本。它在評估集上取得了以下結果:
- 損失值:nan
✨ 主要特性
此模型基於 answerdotai/ModernBERT-base
進行微調,能夠在特定任務上有更出色的表現,不過目前訓練和評估數據信息暫未明確。
🔧 技術細節
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:0.005
- 訓練批次大小:8
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:16
- 總訓練批次大小:128
- 優化器:使用
OptimizerNames.ADAMW_TORCH
,其中betas=(0.9,0.999)
,epsilon=1e-08
,無額外優化器參數 - 學習率調度器類型:線性
- 學習率調度器預熱比例:0.07
- 訓練輪數:2
訓練結果
訓練損失 | 輪數 | 步數 | 驗證損失 |
---|---|---|---|
125.0167 | 0.0109 | 100 | nan |
112.5359 | 0.0219 | 200 | nan |
109.896 | 0.0328 | 300 | nan |
107.4339 | 0.0437 | 400 | nan |
103.1406 | 0.0546 | 500 | nan |
99.518 | 0.0656 | 600 | nan |
98.1404 | 0.0765 | 700 | nan |
96.4646 | 0.0874 | 800 | nan |
95.7492 | 0.0983 | 900 | nan |
93.8507 | 0.1093 | 1000 | nan |
93.7277 | 0.1202 | 1100 | nan |
92.1633 | 0.1311 | 1200 | nan |
91.0273 | 0.1420 | 1300 | nan |
90.2002 | 0.1530 | 1400 | nan |
89.4479 | 0.1639 | 1500 | nan |
89.1879 | 0.1748 | 1600 | nan |
86.8561 | 0.1857 | 1700 | nan |
86.2537 | 0.1967 | 1800 | nan |
86.8297 | 0.2076 | 1900 | nan |
84.6928 | 0.2185 | 2000 | nan |
83.4784 | 0.2294 | 2100 | nan |
83.5887 | 0.2404 | 2200 | nan |
83.9307 | 0.2513 | 2300 | nan |
81.3527 | 0.2622 | 2400 | nan |
81.4105 | 0.2731 | 2500 | nan |
81.1048 | 0.2841 | 2600 | nan |
79.4346 | 0.2950 | 2700 | nan |
80.1727 | 0.3059 | 2800 | nan |
80.3314 | 0.3169 | 2900 | nan |
79.3279 | 0.3278 | 3000 | nan |
78.772 | 0.3387 | 3100 | nan |
77.1061 | 0.3496 | 3200 | nan |
77.3927 | 0.3606 | 3300 | nan |
77.128 | 0.3715 | 3400 | nan |
77.3792 | 0.3824 | 3500 | nan |
76.9679 | 0.3933 | 3600 | nan |
75.4298 | 0.4043 | 3700 | nan |
76.2873 | 0.4152 | 3800 | nan |
75.4714 | 0.4261 | 3900 | nan |
75.3966 | 0.4370 | 4000 | nan |
75.2704 | 0.4480 | 4100 | nan |
74.7007 | 0.4589 | 4200 | nan |
74.1831 | 0.4698 | 4300 | nan |
73.9942 | 0.4807 | 4400 | nan |
74.2908 | 0.4917 | 4500 | nan |
73.3644 | 0.5026 | 4600 | nan |
73.0533 | 0.5135 | 4700 | nan |
72.1435 | 0.5244 | 4800 | nan |
71.8705 | 0.5354 | 4900 | nan |
73.3312 | 0.5463 | 5000 | nan |
72.0031 | 0.5572 | 5100 | nan |
70.9734 | 0.5682 | 5200 | nan |
71.031 | 0.5791 | 5300 | nan |
71.2214 | 0.5900 | 5400 | nan |
70.7596 | 0.6009 | 5500 | 6.3902 |
71.2633 | 0.6119 | 5600 | nan |
70.3307 | 0.6228 | 5700 | nan |
70.0143 | 0.6337 | 5800 | nan |
70.7308 | 0.6446 | 5900 | nan |
69.6832 | 0.6556 | 6000 | nan |
69.295 | 0.6665 | 6100 | nan |
69.426 | 0.6774 | 6200 | nan |
69.9395 | 0.6883 | 6300 | nan |
68.4942 | 0.6993 | 6400 | nan |
69.5833 | 0.7102 | 6500 | nan |
68.3381 | 0.7211 | 6600 | nan |
68.4515 | 0.7320 | 6700 | nan |
68.0571 | 0.7430 | 6800 | nan |
68.1398 | 0.7539 | 6900 | nan |
67.5816 | 0.7648 | 7000 | nan |
66.0035 | 0.7757 | 7100 | nan |
67.7892 | 0.7867 | 7200 | nan |
67.9904 | 0.7976 | 7300 | nan |
65.9595 | 0.8085 | 7400 | nan |
66.0176 | 0.8194 | 7500 | nan |
66.3258 | 0.8304 | 7600 | nan |
65.9997 | 0.8413 | 7700 | nan |
67.0377 | 0.8522 | 7800 | nan |
66.2209 | 0.8632 | 7900 | nan |
66.2458 | 0.8741 | 8000 | 6.0199 |
65.5858 | 0.8850 | 8100 | nan |
65.111 | 0.8959 | 8200 | nan |
64.9051 | 0.9069 | 8300 | nan |
65.771 | 0.9178 | 8400 | nan |
65.3083 | 0.9287 | 8500 | nan |
65.3556 | 0.9396 | 8600 | nan |
64.592 | 0.9506 | 8700 | nan |
65.2071 | 0.9615 | 8800 | nan |
64.3542 | 0.9724 | 8900 | nan |
65.0919 | 0.9833 | 9000 | nan |
64.5229 | 0.9943 | 9100 | nan |
63.9692 | 1.0051 | 9200 | nan |
63.5139 | 1.0161 | 9300 | nan |
63.5847 | 1.0270 | 9400 | nan |
63.8988 | 1.0379 | 9500 | nan |
62.3398 | 1.0488 | 9600 | nan |
63.8375 | 1.0598 | 9700 | nan |
63.8011 | 1.0707 | 9800 | nan |
62.4506 | 1.0816 | 9900 | nan |
62.933 | 1.0925 | 10000 | nan |
62.813 | 1.1035 | 10100 | nan |
62.0427 | 1.1144 | 10200 | nan |
63.0628 | 1.1253 | 10300 | nan |
61.3597 | 1.1362 | 10400 | nan |
61.9852 | 1.1472 | 10500 | nan |
62.4618 | 1.1581 | 10600 | nan |
61.7416 | 1.1690 | 10700 | nan |
61.8847 | 1.1800 | 10800 | nan |
62.2208 | 1.1909 | 10900 | nan |
62.0095 | 1.2018 | 11000 | nan |
60.6946 | 1.2127 | 11100 | nan |
61.4203 | 1.2237 | 11200 | nan |
61.7838 | 1.2346 | 11300 | nan |
61.991 | 1.2455 | 11400 | nan |
61.5899 | 1.2564 | 11500 | nan |
59.8005 | 1.2674 | 11600 | nan |
60.7846 | 1.2783 | 11700 | nan |
60.5796 | 1.2892 | 11800 | nan |
61.5156 | 1.3001 | 11900 | nan |
60.3144 | 1.3111 | 12000 | nan |
60.2115 | 1.3220 | 12100 | nan |
60.368 | 1.3329 | 12200 | nan |
60.7462 | 1.3438 | 12300 | nan |
61.1936 | 1.3548 | 12400 | 6.0033 |
60.9203 | 1.3657 | 12500 | nan |
59.5265 | 1.3766 | 12600 | nan |
59.978 | 1.3875 | 12700 | nan |
60.6729 | 1.3985 | 12800 | nan |
60.7364 | 1.4094 | 12900 | nan |
59.8604 | 1.4203 | 13000 | nan |
60.1816 | 1.4312 | 13100 | nan |
61.0396 | 1.4422 | 13200 | nan |
59.6997 | 1.4531 | 13300 | nan |
59.7544 | 1.4640 | 13400 | nan |
60.2458 | 1.4750 | 13500 | nan |
59.4263 | 1.4859 | 13600 | nan |
60.1375 | 1.4968 | 13700 | nan |
59.4983 | 1.5077 | 13800 | nan |
58.9182 | 1.5187 | 13900 | nan |
59.2961 | 1.5296 | 14000 | nan |
58.4649 | 1.5405 | 14100 | nan |
58.5321 | 1.5514 | 14200 | nan |
58.7082 | 1.5624 | 14300 | nan |
59.5857 | 1.5733 | 14400 | nan |
59.2364 | 1.5842 | 14500 | nan |
58.8255 | 1.5951 | 14600 | nan |
60.2955 | 1.6061 | 14700 | nan |
58.1949 | 1.6170 | 14800 | nan |
59.6096 | 1.6279 | 14900 | nan |
58.7729 | 1.6388 | 15000 | nan |
58.2987 | 1.6498 | 15100 | nan |
58.6004 | 1.6607 | 15200 | nan |
58.4145 | 1.6716 | 15300 | nan |
58.9517 | 1.6825 | 15400 | nan |
58.9631 | 1.6935 | 15500 | nan |
58.2923 | 1.7044 | 15600 | nan |
58.7865 | 1.7153 | 15700 | nan |
58.2494 | 1.7262 | 15800 | nan |
58.7492 | 1.7372 | 15900 | nan |
57.9321 | 1.7481 | 16000 | nan |
58.8437 | 1.7590 | 16100 | nan |
58.5637 | 1.7700 | 16200 | nan |
58.5184 | 1.7809 | 16300 | nan |
57.9655 | 1.7918 | 16400 | nan |
58.9973 | 1.8027 | 16500 | nan |
57.7771 | 1.8137 | 16600 | nan |
58.8119 | 1.8246 | 16700 | nan |
58.2166 | 1.8355 | 16800 | nan |
58.9727 | 1.8464 | 16900 | nan |
58.1561 | 1.8574 | 17000 | nan |
58.7419 | 1.8683 | 17100 | nan |
59.0596 | 1.8792 | 17200 | nan |
57.1149 | 1.8901 | 17300 | nan |
59.1509 | 1.9011 | 17400 | nan |
58.8787 | 1.9120 | 17500 | nan |
58.0355 | 1.9229 | 17600 | nan |
58.4026 | 1.9338 | 17700 | nan |
58.0197 | 1.9448 | 17800 | nan |
57.3607 | 1.9557 | 17900 | nan |
58.7545 | 1.9666 | 18000 | 5.6811 |
57.3768 | 1.9775 | 18100 | nan |
58.3111 | 1.9885 | 18200 | nan |
58.4388 | 1.9994 | 18300 | nan |
框架版本
- Transformers 4.49.0
- Pytorch 2.6.0+cu124
- Datasets 2.21.0
- Tokenizers 0.21.0
📄 許可證
本項目採用 Apache-2.0 許可證。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98