🚀 日本語預訓練DeBERTa V3模型
這是一個基於日本語資源進行預訓練的 DeBERTa V3 模型。該模型專為日語設計,具有高效、精準等特點,能為日語相關的自然語言處理任務提供強大支持。
🚀 快速開始
以下是使用該模型的示例代碼:
from transformers import AutoTokenizer, AutoModelForTokenClassification
model_name = 'globis-university/deberta-v3-japanese-base'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
✨ 主要特性
本模型具備以下顯著特徵:
- 經典架構:基於知名的 DeBERTa V3 模型構建。
- 日語特化:專門針對日語進行優化,更適配日語處理任務。
- 無需形態素解析:推理過程中無需使用形態素解析器,提升處理效率。
- 尊重單詞邊界:在一定程度上尊重單詞邊界,避免生成跨多個單詞的標記。
📦 訓練數據
數據集名稱 |
說明 |
文件大小(含元數據) |
因子 |
Wikipedia |
2023/07;WikiExtractor |
3.5GB |
x2 |
Wikipedia |
2023/07;[cl - tohoku's method](https://github.com/cl - tohoku/bert - japanese/blob/main/make_corpus_wiki.py) |
4.8GB |
x2 |
WikiBooks |
2023/07;[cl - tohoku's method](https://github.com/cl - tohoku/bert - japanese/blob/main/make_corpus_wiki.py) |
43MB |
x2 |
Aozora Bunko |
2023/07;[globis - university/aozorabunko - clean](https://huggingface.co/globis - university/globis - university/aozorabunko - clean) |
496MB |
x4 |
CC - 100 |
ja |
90GB |
x1 |
mC4 |
ja;通過 DSIR 提取10%,聚焦類似維基百科的數據 |
91GB |
x1 |
OSCAR 2023 |
ja;通過 DSIR 提取10%,聚焦類似維基百科的數據 |
26GB |
x1 |
🔧 技術細節
分詞器
該分詞器採用 工藤氏提出的方法 進行訓練,設計時考慮了以下幾點:
- 無需形態素解析:推理時無需使用形態素解析器。
- 尊重單詞邊界:分詞結果不會跨越單詞邊界(使用詞典:
unidic - cwj - 202302
)。
- 易於使用:便於在 Hugging Face 平臺使用。
- 詞彙量適中:採用較小的詞彙量,避免嵌入層參數過多。
原 DeBERTa V3 模型以大詞彙量為特點,但這會導致嵌入層參數數量大幅增加(對於 [microsoft/deberta - v3 - base](https://huggingface.co/microsoft/deberta - v3 - base) 模型,嵌入層佔總量的 54%)。因此,本模型採用了較小的詞彙量(32,000)。
需要注意的是,在 xsmall
、base
和 large
這三個模型中,前兩個使用 unigram 算法進行訓練,而 large
模型使用 BPE 算法訓練。原因在於,large
模型為了增加詞彙量進行了獨立訓練,但使用 unigram 算法訓練未成功,為了優先完成模型,最終切換到了 BPE 算法。
訓練參數
- 設備數量:8
- 批次大小:24 x 8
- 學習率:1.92e - 4
- 最大序列長度:512
- 優化器:AdamW
- 學習率調度器:帶熱身的線性調度
- 訓練步數:1,000,000
- 熱身步數:100,000
- 精度:混合精度(fp16)
- 詞彙量:32,000
📚 詳細文檔
評估結果
模型 |
參數數量 |
JSTS |
JNLI |
JSQuAD |
JCQA |
≤ small |
|
|
|
|
|
[izumi - lab/deberta - v2 - small - japanese](https://huggingface.co/izumi - lab/deberta - v2 - small - japanese) |
17.8M |
0.890/0.846 |
0.880 |
- |
0.737 |
[globis - university/deberta - v3 - japanese - xsmall](https://huggingface.co/globis - university/deberta - v3 - japanese - xsmall) |
33.7M |
0.916/0.880 |
0.913 |
0.869/0.938 |
0.821 |
base |
|
|
|
|
|
[cl - tohoku/bert - base - japanese - v3](https://huggingface.co/cl - tohoku/bert - base - japanese - v3) |
111M |
0.919/0.881 |
0.907 |
0.880/0.946 |
0.848 |
[nlp - waseda/roberta - base - japanese](https://huggingface.co/nlp - waseda/roberta - base - japanese) |
111M |
0.913/0.873 |
0.895 |
0.864/0.927 |
0.840 |
[izumi - lab/deberta - v2 - base - japanese](https://huggingface.co/izumi - lab/deberta - v2 - base - japanese) |
110M |
0.919/0.882 |
0.912 |
- |
0.859 |
[ku - nlp/deberta - v2 - base - japanese](https://huggingface.co/ku - nlp/deberta - v2 - base - japanese) |
112M |
0.922/0.886 |
0.922 |
0.899/0.951 |
- |
[ku - nlp/deberta - v3 - base - japanese](https://huggingface.co/ku - nlp/deberta - v3 - base - japanese) |
160M |
0.927/0.891 |
0.927 |
0.896/- |
- |
[globis - university/deberta - v3 - japanese - base](https://huggingface.co/globis - university/deberta - v3 - japanese - base) |
110M |
0.925/0.895 |
0.921 |
0.890/0.950 |
0.886 |
large |
|
|
|
|
|
[cl - tohoku/bert - large - japanese - v2](https://huggingface.co/cl - tohoku/bert - large - japanese - v2) |
337M |
0.926/0.893 |
0.929 |
0.893/0.956 |
0.893 |
[nlp - waseda/roberta - large - japanese](https://huggingface.co/nlp - waseda/roberta - large - japanese) |
337M |
0.930/0.896 |
0.924 |
0.884/0.940 |
0.907 |
[nlp - waseda/roberta - large - japanese - seq512](https://huggingface.co/nlp - waseda/roberta - large - japanese - seq512) |
337M |
0.926/0.892 |
0.926 |
0.918/0.963 |
0.891 |
[ku - nlp/deberta - v2 - large - japanese](https://huggingface.co/ku - nlp/deberta - v2 - large - japanese) |
339M |
0.925/0.892 |
0.924 |
0.912/0.959 |
- |
[globis - university/deberta - v3 - japanese - large](https://huggingface.co/globis - university/deberta - v3 - japanese - large) |
352M |
0.928/0.896 |
0.924 |
0.896/0.956 |
0.900 |
📄 許可證
本模型採用 CC BY SA 4.0 許可證。
🙏 致謝
本項目計算資源使用了 ABCI,在此表示感謝。