roberta-large-japanese-with-auto-jumanpp開源日語模型 - 支持自動分詞，處理日語文本

首頁

Roberta Large Japanese With Auto Jumanpp

由nlp-waseda開發

基於日語維基百科和CC-100日語部分預訓練的日本RoBERTa大型模型，支持自動Juman++分詞

大型語言模型

Transformers

日語#日語掩碼語言建模 #Juman++自動分詞 #大規模預訓練

下載量 139

發布時間 : 10/15/2022

模型概述

這是一個大型日語RoBERTa模型，專門針對日語自然語言處理任務進行預訓練，支持掩碼語言建模和下游任務微調。

模型特點

自動Juman++分詞

支持對Juman++的自動分詞，簡化預處理流程

大規模預訓練

基於日語維基百科和CC-100日語部分進行預訓練，覆蓋廣泛日語語料

高性能分詞

結合JumanDIC和sentencepiece，提供32000個標記的豐富詞彙表

模型能力

日語文本理解

掩碼語言建模

下游任務微調

使用案例

自然語言處理

文本補全

預測句子中被掩碼標記[MASK]的詞語

文本分類

通過微調可用於情感分析等分類任務

🚀 nlp-waseda/roberta-large-japanese-with-auto-jumanpp

這是一個基於日本維基百科和CC - 100日語部分預訓練的日語RoBERTa大型模型，可用於掩碼語言建模任務，還能在下游任務中進行微調。

🚀 快速開始

你可以按照以下方式使用該模型進行掩碼語言建模：

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-large-japanese-with-auto-jumanpp")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-large-japanese-with-auto-jumanpp")

sentence = '早稲田大學で自然言語処理を[MASK]する。'
encoding = tokenizer(sentence, return_tensors='pt')
...

你還可以在下游任務中對該模型進行微調。

✨ 主要特性

預訓練數據豐富：基於日本維基百科和CC - 100的日語部分進行預訓練。
支持自動分詞：BertJapaneseTokenizer 現在支持 Juman++ 的自動分詞。

📚 詳細文檔

分詞

BertJapaneseTokenizer 現在支持 Juman++ 的自動分詞。不過，如果你的數據集很大，由於 BertJapaneseTokenizer 仍然不支持快速分詞，可能會花費很長時間。你也可以自己進行Juman++分詞，然後使用舊模型 nlp-waseda/roberta-large-japanese。

預訓練使用了Juman++ 2.0.0 - rc3。每個單詞通過 sentencepiece 被分詞為標記。