🚀 albert-base-japanese-v1-with-japanese
這是一個日語預訓練的ALBERT模型。該模型在分詞時使用了BertJapaneseTokenizer類,相較於albert-base-japanese-v1,分詞處理更加便捷。
🚀 快速開始
✨ 主要特性
- 基於日本語進行預訓練,適用於多種日語自然語言處理任務。
- 使用
BertJapaneseTokenizer
類進行分詞,簡化了分詞流程。
📦 安裝指南
文檔未提及安裝步驟,暫不展示。
💻 使用示例
基礎用法
微調
此模型為預訓練模型,基本上可針對各種任務進行微調後使用。
掩碼填充任務
for PyTorch
from transformers import (
AutoModelForMaskedLM, AutoTokenizer
)
tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = AutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="pt")
mask_index = tokens["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
_, result = predict[0, mask_index].topk(5)
print(tokenizer.convert_ids_to_tokens(result.tolist()))
for TensorFlow
from transformers import (
TFAutoModelForMaskedLM, AutoTokenizer
)
import tensorflow as tf
tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = TFAutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="tf")
mask_index = tokens["input_ids"][0].numpy().tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
result = tf.math.top_k(predict[0, mask_index], k=5)
print(tokenizer.convert_ids_to_tokens(result.indices.numpy()))
📚 詳細文檔
訓練數據
訓練使用了以下數據:
分詞器
分詞器使用了BertJapaneseTokenizer類,其訓練數據與模型相同。
📄 許可證
本模型採用The MIT license。