bigbird-base-japanese開源日語模型 - 免費用於長序列處理任務

首頁

Bigbird Base Japanese

由nlp-waseda開發

基於日語維基百科、CC-100和OSCAR數據集預訓練的日語BigBird模型，適用於長序列處理任務。

大型語言模型

Transformers

日語#日語長文本處理 #BigBird架構 #Juman++分詞

下載量 38

發布時間 : 6/3/2023

模型概述

這是一個基於日語維基百科、CC-100日語部分和OSCAR日語部分預訓練的日語BigBird基礎模型，主要用於掩碼語言建模和下游任務微調。

模型特點

長序列處理

支持最大4096長度的序列處理，適合處理長文本任務。

高效預訓練

使用16塊NVIDIA A100 GPU和DeepSpeed優化，訓練效率高。

專業分詞

輸入文本需使用Juman++進行專業分詞，確保語言處理準確性。

模型能力

日語文本理解

掩碼語言建模

長序列處理

下游任務微調

使用案例

文本分類

情感分析

對日語文本進行情感傾向分類

在MARC-ja任務上準確率達到0.959

語義相似度

句子相似度計算

計算兩個日語句子的語義相似度

在JSTS任務上皮爾遜係數達到0.888

問答系統

日語閱讀理解

基於給定文本回答日語問題

在JSQuAD任務上F1值達到0.933

🚀 nlp-waseda/bigbird-base-japanese

這是一個基於日本維基百科、CC - 100的日語部分以及OSCAR的日語部分進行預訓練的日語BigBird基礎模型，可用於自然語言處理相關任務，為日語的語言理解和生成提供支持。

🚀 快速開始

你可以按如下方式使用此模型進行掩碼語言建模：

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/bigbird-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/bigbird-base-japanese")

sentence = '[MASK] 大學 で 自然 言語 処理 を 學ぶ 。' # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

你還可以在下游任務中對該模型進行微調。

✨ 主要特性

預訓練數據豐富：基於日本維基百科、CC - 100的日語部分和OSCAR的日語部分進行預訓練。
可微調性：能夠在下游任務中進行微調以適應不同的自然語言處理需求。

📦 安裝指南

文檔未提及具體安裝步驟，可參考transformers庫的安裝方式來獲取此模型。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/bigbird-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/bigbird-base-japanese")

sentence = '[MASK] 大學 で 自然 言語 処理 を 學ぶ 。' # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

高級用法

可將此模型在下游任務中進行微調，以適應特定的自然語言處理需求。

📚 詳細文檔

分詞處理

輸入文本應預先使用 Juman++ 進行分詞。預訓練使用的是Juman++ 2.0.0 - rc3版本。每個單詞會通過 sentencepiece 分詞成標記。

詞彙表

詞彙表由32000個標記組成，包括單詞（JumanDIC）和由 sentencepiece 的一元語言模型生成的子詞。

訓練過程

該模型在日本維基百科（截至2022年11月1日）、CC - 100的日語部分以及OSCAR的日語部分上進行訓練。使用16個NVIDIA A100 GPU，藉助 transformers 和 DeepSpeed 進行了為期兩週的訓練。

預訓練期間使用的超參數如下：

屬性	詳情
學習率	1e - 4
每個設備的訓練批次大小	6
梯度累積步數	2
總訓練批次大小	192
最大序列長度	4096
訓練步數	600000
熱身步數	6000
混合精度類型	bf16
DeepSpeed配置文件	ds_config.json

在JGLUE上的性能

我們對以下模型進行了微調，並在JGLUE的開發集上進行了評估。我們根據 JGLUE論文為每個模型和任務調整了學習率和訓練輪數。

對於除MARC - ja之外的任務，由於最大長度較短，因此將注意力類型設置為 "original_full" 並進行微調。對於MARC - ja任務，則同時使用了 "block_sparse" 和 "original_full" 。

模型	MARC - ja/準確率	JSTS/皮爾遜相關係數	JSTS/斯皮爾曼相關係數	JNLI/準確率	JSQuAD/精確匹配率	JSQuAD/F1值	JComQA/準確率
Waseda RoBERTa base	0.965	0.913	0.876	0.905	0.853	0.916	0.853
Waseda RoBERTa large (seq512)	0.969	0.925	0.890	0.928	0.910	0.955	0.900
BigBird base (original_full)	0.959	0.888	0.846	0.896	0.884	0.933	0.787
BigBird base (block_sparse)	0.959	-	-	-	-	-	-