KoMiniLM開源韓語語言模型 - 解決大模型延遲和容量問題，輕量高效

首頁

Kominilm

由BM-K開發

KoMiniLM是一個輕量級韓語語言模型，旨在解決大型語言模型在實際應用中的延遲和容量限制問題。

大型語言模型

Transformers

#韓語輕量模型 #知識蒸餾 #低參數量優化

下載量 244

發布時間 : 5/23/2022

模型概述

KoMiniLM是一個輕量級的韓語語言模型，通過蒸餾技術從教師模型KLUE-BERT中提取知識，適用於多種韓語自然語言處理任務。

模型特點

輕量級設計

模型參數規模小（23M/68M），適合在資源有限的環境中部署和使用。

知識蒸餾

通過自注意力分佈和自注意力值關係從KLUE-BERT教師模型中蒸餾知識，提升模型性能。

多任務支持

在多種韓語NLP任務上表現優異，包括情感分析、命名實體識別、問答等。

模型能力

文本分類

命名實體識別

問答系統

文本相似度計算

情感分析

使用案例

情感分析

電影評論情感分析

使用NSMC數據集進行電影評論的情感分析。

準確率89.67±0.03 (23M模型)

命名實體識別

Naver NER任務

在Naver NLP挑戰賽2018的NER任務上進行測試。

F1分數84.79±0.09 (23M模型)

問答系統

KorQuAD問答

在韓語問答數據集KorQuAD上進行測試。

EM/F1分數82.11±0.42 / 91.21±0.29 (23M模型)

🚀 KoMiniLM

🐣 韓國輕量級語言模型

本項目推出的韓國輕量級語言模型，旨在解決現有語言模型因參數過多，在實際應用的微調與在線服務中受延遲和容量限制的問題。

🚀 快速開始

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("BM-K/KoMiniLM") # 23M 模型
model = AutoModel.from_pretrained("BM-K/KoMiniLM")

inputs = tokenizer("안녕 세상아!", return_tensors="pt")
outputs = model(**inputs)

📜 更新歷史

** 2022.06.20 更新 **

發佈 KoMiniLM-bert-68M

** 2022.05.24 更新 **

發佈 KoMiniLM-bert-23M

📚 預訓練

教師模型：KLUE-BERT(base)

目標

將教師模型每個離散層的自注意力分佈和自注意力值關係 [Wang et al., 2020] 蒸餾到學生模型中。與 Wang 等人在 Transformer 最後一層進行蒸餾不同，本項目並非如此。

數據集

數據	新聞評論	新聞文章
規模	10G	10G

配置

KoMiniLM-23M

{
  "architectures": [
    "BertForPreTraining"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 384,
  "initializer_range": 0.02,
  "intermediate_size": 1536,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 6,
  "output_attentions": true,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "return_dict": false,
  "torch_dtype": "float32",
  "transformers_version": "4.13.0",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 32000
}

子任務性能

微調實驗結果為每個任務 3 次運行的平均值。

cd KoMiniLM-Finetune
bash scripts/run_all_kominilm.sh

模型	參數數量	平均	NSMC (準確率)	Naver NER (F1值)	PAWS (準確率)	KorNLI (準確率)	KorSTS (斯皮爾曼係數)	問題對 (準確率)	KorQuaD (開發集) (精確匹配率/F1值)
KoBERT(KLUE)	110M	86.84	90.20±0.07	87.11±0.05	81.36±0.21	81.06±0.33	82.47±0.14	95.03±0.44	84.43±0.18 / 93.05±0.04
KcBERT	108M	78.94	89.60±0.10	84.34±0.13	67.02±0.42	74.17±0.52	76.57±0.51	93.97±0.27	60.87±0.27 / 85.01±0.14
KoBERT(SKT)	92M	79.73	89.28±0.42	87.54±0.04	80.93±0.91	78.18±0.45	75.98±2.81	94.37±0.31	51.94±0.60 / 79.69±0.66
DistilKoBERT	28M	74.73	88.39±0.08	84.22±0.01	61.74±0.45	70.22±0.14	72.11±0.27	92.65±0.16	52.52±0.48 / 76.00±0.71

KoMiniLM^†	68M	85.90	89.84±0.02	85.98±0.09	80.78±0.30	79.28±0.17	81.00±0.07	94.89±0.37	83.27±0.08 / 92.08±0.06
KoMiniLM^†	23M	84.79	89.67±0.03	84.79±0.09	78.67±0.45	78.10±0.07	78.90±0.11	94.81±0.12	82.11±0.42 / 91.21±0.29