🚀 KoMiniLM
🐣 韓國輕量級語言模型
本項目推出的韓國輕量級語言模型,旨在解決現有語言模型因參數過多,在實際應用的微調與在線服務中受延遲和容量限制的問題。
🚀 快速開始
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("BM-K/KoMiniLM")
model = AutoModel.from_pretrained("BM-K/KoMiniLM")
inputs = tokenizer("안녕 세상아!", return_tensors="pt")
outputs = model(**inputs)
📜 更新歷史
** 2022.06.20 更新 **
** 2022.05.24 更新 **
📚 預訓練
教師模型
:KLUE-BERT(base)
目標
將教師模型每個離散層的自注意力分佈和自注意力值關係 [Wang et al., 2020] 蒸餾到學生模型中。與 Wang 等人在 Transformer 最後一層進行蒸餾不同,本項目並非如此。
數據集
配置
{
"architectures": [
"BertForPreTraining"
],
"attention_probs_dropout_prob": 0.1,
"classifier_dropout": null,
"hidden_act": "gelu",
"hidden_dropout_prob": 0.1,
"hidden_size": 384,
"initializer_range": 0.02,
"intermediate_size": 1536,
"layer_norm_eps": 1e-12,
"max_position_embeddings": 512,
"model_type": "bert",
"num_attention_heads": 12,
"num_hidden_layers": 6,
"output_attentions": true,
"pad_token_id": 0,
"position_embedding_type": "absolute",
"return_dict": false,
"torch_dtype": "float32",
"transformers_version": "4.13.0",
"type_vocab_size": 2,
"use_cache": true,
"vocab_size": 32000
}
子任務性能
cd KoMiniLM-Finetune
bash scripts/run_all_kominilm.sh
模型 |
參數數量 |
平均 |
NSMC (準確率) |
Naver NER (F1值) |
PAWS (準確率) |
KorNLI (準確率) |
KorSTS (斯皮爾曼係數) |
問題對 (準確率) |
KorQuaD (開發集) (精確匹配率/F1值) |
KoBERT(KLUE) |
110M |
86.84 |
90.20±0.07 |
87.11±0.05 |
81.36±0.21 |
81.06±0.33 |
82.47±0.14 |
95.03±0.44 |
84.43±0.18 / 93.05±0.04 |
KcBERT |
108M |
78.94 |
89.60±0.10 |
84.34±0.13 |
67.02±0.42 |
74.17±0.52 |
76.57±0.51 |
93.97±0.27 |
60.87±0.27 / 85.01±0.14 |
KoBERT(SKT) |
92M |
79.73 |
89.28±0.42 |
87.54±0.04 |
80.93±0.91 |
78.18±0.45 |
75.98±2.81 |
94.37±0.31 |
51.94±0.60 / 79.69±0.66 |
DistilKoBERT |
28M |
74.73 |
88.39±0.08 |
84.22±0.01 |
61.74±0.45 |
70.22±0.14 |
72.11±0.27 |
92.65±0.16 |
52.52±0.48 / 76.00±0.71 |
|
|
|
|
|
|
|
|
|
|
KoMiniLM† |
68M |
85.90 |
89.84±0.02 |
85.98±0.09 |
80.78±0.30 |
79.28±0.17 |
81.00±0.07 |
94.89±0.37 |
83.27±0.08 / 92.08±0.06 |
KoMiniLM† |
23M |
84.79 |
89.67±0.03 |
84.79±0.09 |
78.67±0.45 |
78.10±0.07 |
78.90±0.11 |
94.81±0.12 |
82.11±0.42 / 91.21±0.29 |

📖 參考文獻