albert-base-japanese-v1開源日語模型 - 免費支持日語文本掩碼填充處理

首頁

Albert Base Japanese V1

由ken11開發

這是一個預訓練的日語ALBERT模型，主要用於填充掩碼任務，支持日語文本處理。

大型語言模型

Transformers

日語開源協議:MIT #日語填充掩碼 #ALBERT輕量架構 #維基百科訓練

下載量 609

發布時間 : 3/2/2022

模型概述

該模型是基於ALBERT架構的日語預訓練模型，設計用於各種自然語言處理任務的微調，特別擅長填充掩碼任務。

模型特點

日語專用

專門針對日語文本優化的預訓練模型

ALBERT架構

採用輕量級的ALBERT架構，參數效率高

Sentencepiece分詞

使用Sentencepiece作為分詞器，處理日語文本效果良好

模型能力

日語文本理解

填充掩碼預測

自然語言處理任務微調

使用案例

學術研究

學科領域預測

預測學術研究中涉及的學科領域

能準確預測如'心理學'、'數學'等學科名稱

文本補全

句子補全

自動補全日語句子中的缺失部分

能根據上下文提供合理的補全建議

🚀 albert-base-japanese-v1

這是一個預訓練好的日語ALBERT模型，可用於多種自然語言處理任務。

🚀 快速開始

此模型為預訓練模型，主要用於針對各類任務進行微調後使用。

✨ 主要特性

語言支持：支持日語。
任務類型：適用於填充掩碼等自然語言處理任務。

📦 安裝指南

文檔未提及安裝相關內容，故跳過此章節。

💻 使用示例

基礎用法

微調

此模型是預訓練模型，基本上是為各種任務進行微調後使用。

填充掩碼

此模型在分詞器中使用了Sentencepiece。由於存在[MASK]標記後混入多餘標記的問題（詳細問題），使用時需要按以下方式處理。

for PyTorch

from transformers import (
    AlbertForMaskedLM, AlbertTokenizerFast
)
import torch


tokenizer = AlbertTokenizerFast.from_pretrained("ken11/albert-base-japanese-v1")
model = AlbertForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1")

text = "大學で[MASK]の研究をしています"
tokenized_text = tokenizer.tokenize(text)
del tokenized_text[tokenized_text.index(tokenizer.mask_token) + 1]

input_ids = [tokenizer.cls_token_id]
input_ids.extend(tokenizer.convert_tokens_to_ids(tokenized_text))
input_ids.append(tokenizer.sep_token_id)

inputs = {"input_ids": [input_ids], "token_type_ids": [[0]*len(input_ids)], "attention_mask": [[1]*len(input_ids)]}
batch = {k: torch.tensor(v, dtype=torch.int64) for k, v in inputs.items()}
output = model(**batch)[0]
_, result = output[0, input_ids.index(tokenizer.mask_token_id)].topk(5)

print(tokenizer.convert_ids_to_tokens(result.tolist()))
# ['英語', '心理學', '數學', '醫學', '日本語']

for TensorFlow

from transformers import (
    TFAlbertForMaskedLM, AlbertTokenizerFast
)
import tensorflow as tf


tokenizer = AlbertTokenizerFast.from_pretrained("ken11/albert-base-japanese-v1")
model = TFAlbertForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1")

text = "大學で[MASK]の研究をしています"
tokenized_text = tokenizer.tokenize(text)
del tokenized_text[tokenized_text.index(tokenizer.mask_token) + 1]

input_ids = [tokenizer.cls_token_id]
input_ids.extend(tokenizer.convert_tokens_to_ids(tokenized_text))
input_ids.append(tokenizer.sep_token_id)

inputs = {"input_ids": [input_ids], "token_type_ids": [[0]*len(input_ids)], "attention_mask": [[1]*len(input_ids)]}
batch = {k: tf.convert_to_tensor(v, dtype=tf.int32) for k, v in inputs.items()}
output = model(**batch)[0]
result = tf.math.top_k(output[0, input_ids.index(tokenizer.mask_token_id)], k=5)

print(tokenizer.convert_ids_to_tokens(result.indices.numpy()))
# ['英語', '心理學', '數學', '醫學', '日本語']