albert-base-japanese-v1開源日語模型 - 搭配日語分詞器便捷處理日語文本

首頁

Albert Base Japanese V1 With Japanese Tokenizer

由ken11開發

這是一個經過日語預訓練的ALBERT模型，使用了BertJapaneseTokenizer作為分詞器，處理日語文本更加便捷。

大型語言模型

Transformers

日語開源協議:MIT #日語掩碼填充 #ALBERT架構 #維基百科預訓練

下載量 44

發布時間 : 4/20/2022

模型概述

該模型是基於ALBERT架構的日語預訓練模型，主要用於日語文本的填充掩碼任務，經過微調後可適用於各種自然語言處理任務。

模型特點

日語優化分詞器

使用BertJapaneseTokenizer作為分詞器，相比原版模型對日語文本處理更加便捷高效。

輕量級架構

基於ALBERT架構，參數共享機制使得模型更加輕量高效。

易於微調

預訓練模型設計用於各種下游任務的微調，適應性強。

模型能力

日語文本理解

填充掩碼預測

文本特徵提取

使用案例

文本補全

日語諺語補全

補全日語諺語中的缺失部分，如'明日は明日の[MASK]が吹く'

可預測出'風'等合適的補全詞

自然語言處理

下游任務微調

可用於文本分類、命名實體識別等NLP任務的微調基礎模型

🚀 albert-base-japanese-v1-with-japanese

這是一個日語預訓練的ALBERT模型。該模型在分詞時使用了BertJapaneseTokenizer類，相較於albert-base-japanese-v1，分詞處理更加便捷。

🚀 快速開始

✨ 主要特性

基於日本語進行預訓練，適用於多種日語自然語言處理任務。
使用BertJapaneseTokenizer類進行分詞，簡化了分詞流程。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

基礎用法

微調

此模型為預訓練模型，基本上可針對各種任務進行微調後使用。

掩碼填充任務

for PyTorch

from transformers import (
    AutoModelForMaskedLM, AutoTokenizer
)


tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = AutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")

text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="pt")
mask_index = tokens["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
_, result = predict[0, mask_index].topk(5)

print(tokenizer.convert_ids_to_tokens(result.tolist()))

for TensorFlow

from transformers import (
    TFAutoModelForMaskedLM, AutoTokenizer
)
import tensorflow as tf


tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = TFAutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")

text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="tf")
mask_index = tokens["input_ids"][0].numpy().tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
result = tf.math.top_k(predict[0, mask_index], k=5)

print(tokenizer.convert_ids_to_tokens(result.indices.numpy()))