🚀 基於韓語的ELECTRA(KR - ELECTRA)
這是由首爾國立大學計算語言學實驗室開發的特定於韓語的ELECTRA模型,其性能相當或更優。我們的模型在處理如評論文件等非正式文本相關任務時表現卓越,同時在其他類型任務中也能取得相當的成果。
🚀 快速開始
本項目發佈了基於韓語的ELECTRA模型KR - ELECTRA,以下將詳細介紹模型的相關信息,包括模型細節、訓練數據集、詞彙表、下載鏈接、微調方法以及實驗結果等。
✨ 主要特性
- 針對韓語進行預訓練,在韓語相關任務中表現出色。
- 在非正式文本任務(如評論文件)上有顯著性能提升。
- 與其他模型相比,在多個韓語自然語言處理任務中取得了更優的結果。
📦 安裝指南
你可以通過以下方式下載使用本模型:
- Tensorflow - v1模型(下載)
- HuggingFace上的PyTorch模型:
from transformers import ElectraModel, ElectraTokenizer
model = ElectraModel.from_pretrained("snunlp/KR-ELECTRA-discriminator")
tokenizer = ElectraTokenizer.from_pretrained("snunlp/KR-ELECTRA-discriminator")
📚 詳細文檔
發佈的模型
我們按照ELECTRA的基礎規模模型對KR - ELECTRA模型進行了預訓練。使用谷歌雲平臺的v3 - 8 TPU,基於Tensorflow - v1對模型進行訓練。
模型詳情
我們遵循了ELECTRA基礎規模模型的訓練參數。
超參數
屬性 |
詳情 |
模型類型 |
判別器層數12,嵌入大小768,隱藏大小768,頭數12;生成器層數12,嵌入大小768,隱藏大小256,頭數4 |
訓練數據 |
批大小256,訓練步數700000,學習率2e - 4,最大序列長度128,生成器大小0.33333 |
模型 |
層數 |
嵌入大小 |
隱藏大小 |
頭數 |
判別器 |
12 |
768 |
768 |
12 |
生成器 |
12 |
768 |
256 |
4 |
預訓練
批大小 |
訓練步數 |
學習率 |
最大序列長度 |
生成器大小 |
256 |
700000 |
2e - 4 |
128 |
0.33333 |
訓練數據集
使用了34GB的韓語文本,包括維基百科文檔、新聞文章、法律文本、新聞評論、產品評論等。這些文本是平衡的,書面和口語數據的比例相同。
詞彙表
詞彙表大小為30000。我們基於Mecab - Ko詞法分析器,使用基於詞素的單元標記作為詞彙表。
下載鏈接
- Tensorflow - v1模型(下載)
- HuggingFace上的PyTorch模型:
from transformers import ElectraModel, ElectraTokenizer
model = ElectraModel.from_pretrained("snunlp/KR-ELECTRA-discriminator")
tokenizer = ElectraTokenizer.from_pretrained("snunlp/KR-ELECTRA-discriminator")
微調
我們使用並稍微修改了來自KoELECTRA的微調代碼,並額外調整了超參數。你可以從我們的GitHub下載我們用於模型的代碼和配置文件。
實驗結果
|
NSMC (準確率) |
Naver NER (F1值) |
PAWS (準確率) |
KorNLI (準確率) |
KorSTS (斯皮爾曼係數) |
問題對 (準確率) |
KorQuaD (開發集) (精確匹配率/F1值) |
韓語仇恨言論 (開發集) (F1值) |
KoBERT |
89.59 |
87.92 |
81.25 |
79.62 |
81.59 |
94.85 |
51.75 / 79.15 |
66.21 |
XLM - Roberta - Base |
89.03 |
86.65 |
82.80 |
80.23 |
78.45 |
93.80 |
64.70 / 88.94 |
64.06 |
HanBERT |
90.06 |
87.70 |
82.95 |
80.32 |
82.73 |
94.72 |
78.74 / 92.02 |
68.32 |
KoELECTRA - Base |
90.33 |
87.18 |
81.70 |
80.64 |
82.00 |
93.54 |
60.86 / 89.28 |
66.09 |
KoELECTRA - Base - v2 |
89.56 |
87.16 |
80.70 |
80.72 |
82.30 |
94.85 |
84.01 / 92.40 |
67.45 |
KoELECTRA - Base - v3 |
90.63 |
88.11 |
84.45 |
82.24 |
85.53 |
95.25 |
84.83 / 93.45 |
67.61 |
KR - ELECTRA (我們的模型) |
91.168 |
87.90 |
82.05 |
82.51 |
85.41 |
95.51 |
84.93 / 93.04 |
74.50 |
基線結果來自KoELECTRA。
引用
@misc{kr-electra,
author = {Lee, Sangah and Hyopil Shin},
title = {KR-ELECTRA: a KoRean-based ELECTRA model},
year = {2022},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snunlp/KR-ELECTRA}}
}