🚀 nlp-waseda/bigbird-base-japanese
這是一個基於日本維基百科、CC - 100的日語部分以及OSCAR的日語部分進行預訓練的日語BigBird基礎模型,可用於自然語言處理相關任務,為日語的語言理解和生成提供支持。
🚀 快速開始
你可以按如下方式使用此模型進行掩碼語言建模:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/bigbird-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/bigbird-base-japanese")
sentence = '[MASK] 大學 で 自然 言語 処理 を 學ぶ 。'
encoding = tokenizer(sentence, return_tensors='pt')
...
你還可以在下游任務中對該模型進行微調。
✨ 主要特性
- 預訓練數據豐富:基於日本維基百科、CC - 100的日語部分和OSCAR的日語部分進行預訓練。
- 可微調性:能夠在下游任務中進行微調以適應不同的自然語言處理需求。
📦 安裝指南
文檔未提及具體安裝步驟,可參考transformers
庫的安裝方式來獲取此模型。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/bigbird-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/bigbird-base-japanese")
sentence = '[MASK] 大學 で 自然 言語 処理 を 學ぶ 。'
encoding = tokenizer(sentence, return_tensors='pt')
...
高級用法
可將此模型在下游任務中進行微調,以適應特定的自然語言處理需求。
📚 詳細文檔
分詞處理
輸入文本應預先使用 Juman++ 進行分詞。預訓練使用的是Juman++ 2.0.0 - rc3版本。每個單詞會通過 sentencepiece 分詞成標記。
詞彙表
詞彙表由32000個標記組成,包括單詞(JumanDIC)和由 sentencepiece 的一元語言模型生成的子詞。
訓練過程
該模型在日本維基百科(截至2022年11月1日)、CC - 100的日語部分以及OSCAR的日語部分上進行訓練。使用16個NVIDIA A100 GPU,藉助 transformers 和 DeepSpeed 進行了為期兩週的訓練。
預訓練期間使用的超參數如下:
屬性 |
詳情 |
學習率 |
1e - 4 |
每個設備的訓練批次大小 |
6 |
梯度累積步數 |
2 |
總訓練批次大小 |
192 |
最大序列長度 |
4096 |
訓練步數 |
600000 |
熱身步數 |
6000 |
混合精度類型 |
bf16 |
DeepSpeed配置文件 |
ds_config.json |
在JGLUE上的性能
我們對以下模型進行了微調,並在JGLUE的開發集上進行了評估。我們根據 JGLUE論文 為每個模型和任務調整了學習率和訓練輪數。
對於除MARC - ja之外的任務,由於最大長度較短,因此將注意力類型設置為 "original_full" 並進行微調。對於MARC - ja任務,則同時使用了 "block_sparse" 和 "original_full" 。
模型 |
MARC - ja/準確率 |
JSTS/皮爾遜相關係數 |
JSTS/斯皮爾曼相關係數 |
JNLI/準確率 |
JSQuAD/精確匹配率 |
JSQuAD/F1值 |
JComQA/準確率 |
Waseda RoBERTa base |
0.965 |
0.913 |
0.876 |
0.905 |
0.853 |
0.916 |
0.853 |
Waseda RoBERTa large (seq512) |
0.969 |
0.925 |
0.890 |
0.928 |
0.910 |
0.955 |
0.900 |
BigBird base (original_full) |
0.959 |
0.888 |
0.846 |
0.896 |
0.884 |
0.933 |
0.787 |
BigBird base (block_sparse) |
0.959 |
- |
- |
- |
- |
- |
- |
🔧 技術細節
該模型基於BigBird架構,在日語相關的大規模語料上進行預訓練,結合了transformers
和DeepSpeed
庫進行高效訓練,使用特定的分詞工具和超參數設置來優化模型性能。
📄 許可證
本項目採用CC - BY - SA 4.0許可證。