🚀 KF-DeBERTa
カカオバンクとエフエヌガイドが共同で学習した金融ドメイン特化の言語モデルを公開します。このモデルは、汎用ドメインと金融ドメインの両方で優れた性能を発揮します。
🚀 クイックスタート
このセクションでは、KF-DeBERTaモデルを使用するための基本的な手順を説明します。
✨ 主な機能
- KF-DeBERTaは、汎用ドメインコーパスと金融ドメインコーパスを組み合わせて学習した言語モデルです。
- モデルアーキテクチャはDeBERTa-v2をベースに学習されています。ELECTRAのRTDをトレーニング目的として使用したDeBERTa-v3は、一部のタスク(KLUE-RE、WoS、Retrieval)で非常に低い性能を示したため、最終的なアーキテクチャはDeBERTa-v2に決定されました。
- 汎用ドメインと金融ドメインの両方の下流タスクで優れた性能を発揮します。金融ドメインの下流タスクについては、様々なデータセットを使用して徹底的な性能検証を行いました。汎用ドメインと金融ドメインの両方で、既存の言語モデルよりも優れた性能を示し、特にKLUEベンチマークではRoBERTa-Largeよりも高い性能を達成しています。
💻 使用例
基本的な使用法
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("kakaobank/kf-deberta-base")
tokenizer = AutoTokenizer.from_pretrained("kakaobank/kf-deberta-base")
text = "카카오뱅크와 에프엔가이드가 금융특화 언어모델을 공개합니다."
tokens = tokenizer.tokenize(text)
print(tokens)
inputs = tokenizer(text, return_tensors="pt")
model_output = model(**inputs)
print(model_output)
📚 ドキュメント
ベンチマーク
すべてのタスクは、以下の基本的なハイパーパラメータサーチのみを実行しました。
- batch size: {16, 32}
- learning_rate: {1e-5, 3e-5, 5e-5}
- weight_decay: {0, 0.01}
- warmup_proportion: {0, 0.1}
KLUEベンチマーク
モデル |
YNAT |
KLUE-ST |
KLUE-NLI |
KLUE-NER |
KLUE-RE |
KLUE-DP |
KLUE-MRC |
WoS |
AVG |
|
F1 |
Pearsonr/F1 |
ACC |
F1-Entity/F1-Char |
F1-micro/AUC |
UAS/LAS |
EM/ROUGE |
JGA/F1-S |
|
mBERT (Base) |
82.64 |
82.97/75.93 |
72.90 |
75.56/88.81 |
58.39/56.41 |
88.53/86.04 |
49.96/55.57 |
35.27/88.60 |
71.26 |
XLM-R (Base) |
84.52 |
88.88/81.20 |
78.23 |
80.48/92.14 |
57.62/57.05 |
93.12/87.23 |
26.76/53.36 |
41.54/89.81 |
72.28 |
XLM-R (Large) |
87.30 |
93.08/87.17 |
86.40 |
82.18/93.20 |
58.75/63.53 |
92.87/87.82 |
35.23/66.55 |
42.44/89.88 |
76.17 |
KR-BERT (Base) |
85.36 |
87.50/77.92 |
77.10 |
74.97/90.46 |
62.83/65.42 |
92.87/87.13 |
48.95/58.38 |
45.60/90.82 |
74.67 |
KoELECTRA (Base) |
85.99 |
93.14/85.89 |
86.87 |
86.06/92.75 |
62.67/57.46 |
90.93/87.07 |
59.54/65.64 |
39.83/88.91 |
77.34 |
KLUE-BERT (Base) |
86.95 |
91.01/83.44 |
79.87 |
83.71/91.17 |
65.58/68.11 |
93.07/87.25 |
62.42/68.15 |
46.72/91.59 |
78.50 |
KLUE-RoBERTa (Small) |
85.95 |
91.70/85.42 |
81.00 |
83.55/91.20 |
61.26/60.89 |
93.47/87.50 |
58.25/63.56 |
46.65/91.50 |
77.28 |
KLUE-RoBERTa (Base) |
86.19 |
92.91/86.78 |
86.30 |
83.81/91.09 |
66.73/68.11 |
93.75/87.77 |
69.56/74.64 |
47.41/91.60 |
80.48 |
KLUE-RoBERTa (Large) |
85.88 |
93.20/86.13 |
89.50 |
84.54/91.45 |
71.06/73.33 |
93.84/87.93 |
75.26/80.30 |
49.39/92.19 |
82.43 |
KF-DeBERTa (Base) |
87.51 |
93.24/87.73 |
88.37 |
89.17/93.30 |
69.70/75.07 |
94.05/87.97 |
72.59/78.08 |
50.21/92.59 |
82.83 |
太字はすべてのモデルの中で最も高いスコアを示し、下線はベースモデルの中で最も高いスコアを示します。
金融ドメインベンチマーク
モデル |
FN-Sentiment (v1) |
FN-Sentiment (v2) |
FN-Adnews |
FN-NER |
KorFPB |
KorFiQA-SA |
KorHeadline |
Avg (FiQA-SA 제외) |
|
ACC |
ACC |
ACC |
F1-micro |
ACC |
MSE |
Mean F1 |
|
KLUE-RoBERTa (Base) |
98.26 |
91.21 |
96.34 |
90.31 |
90.97 |
0.0589 |
81.11 |
94.03 |
KoELECTRA (Base) |
98.26 |
90.56 |
96.98 |
89.81 |
92.36 |
0.0652 |
80.69 |
93.90 |
KF-DeBERTa (Base) |
99.36 |
92.29 |
97.63 |
91.80 |
93.47 |
0.0553 |
82.12 |
95.27 |
- FN-Sentiment: 金融ドメインの感情分析
- FN-Adnews: 金融ドメインの広告記事分類
- FN-NER: 金融ドメインの固有表現認識
- KorFPB: FinancialPhraseBankの翻訳データ
- 引用:
Malo, Pekka, et al. "Good debt or bad debt: Detecting semantic orientations in economic texts." Journal of the Association for Information Science and Technology 65.4 (2014): 782-796.
- KorFiQA-SA: FiQA-SAの翻訳データ
- 引用:
Maia, Macedo & Handschuh, Siegfried & Freitas, Andre & Davis, Brian & McDermott, Ross & Zarrouk, Manel & Balahur, Alexandra. (2018). WWW'18 Open Challenge: Financial Opinion Mining and Question Answering. WWW '18: Companion Proceedings of the The Web Conference 2018. 1941-1942. 10.1145/3184558.3192301.
- KorHeadline: Gold Commodity News and Dimensionsの翻訳データ
- 引用:
Sinha, A., & Khandait, T. (2021, April). Impact of News on the Commodity Market: Dataset and Results. In Future of Information and Communication Conference (pp. 589-601). Springer, Cham.
汎用ドメインベンチマーク
モデル |
NSMC |
PAWS |
KorNLI |
KorSTS |
KorQuAD |
Avg (KorQuAD 제외) |
|
ACC |
ACC |
ACC |
spearman |
EM/F1 |
|
KLUE-RoBERTa (Base) |
90.47 |
84.79 |
81.65 |
84.40 |
86.34/94.40 |
85.33 |
KoELECTRA (Base) |
90.63 |
84.45 |
82.24 |
85.53 |
84.83/93.45 |
85.71 |
KF-DeBERTa (Base) |
91.36 |
86.14 |
84.54 |
85.99 |
86.60/95.07 |
87.01 |
📄 ライセンス
KF-DeBERTaのソースコードとモデルは、MITライセンスの下で公開されています。ライセンスの全文はMITファイルで確認できます。当社は、モデルの使用によって生じた損害について一切の責任を負いません。
引用
@proceedings{jeon-etal-2023-kfdeberta,
title = {KF-DeBERTa: Financial Domain-specific Pre-trained Language Model},
author = {Eunkwang Jeon, Jungdae Kim, Minsang Song, and Joohyun Ryu},
booktitle = {Proceedings of the 35th Annual Conference on Human and Cognitive Language Technology},
moth = {oct},
year = {2023},
publisher = {Korean Institute of Information Scientists and Engineers},
url = {http://www.hclt.kr/symp/?lnb=conference},
pages = {143--148},
}