albert-base-japanese-v1オープンソース日本語モデル - 日本語テキストのマスク埋め処理を無料でサポート

ホーム

Albert Base Japanese V1

ken11によって開発

これは、マスク付き言語モデルタスクに主に使用される、日本語の事前学習済みALBERTモデルです。日本語テキストの処理をサポートしています。

大規模言語モデル

Transformers

日本語オープンソースライセンス:MIT #日本語のマスク付き言語モデル #ALBERTの軽量アーキテクチャ #ウィキペディアでの学習

ダウンロード数 609

リリース時間 : 3/2/2022

モデル概要

このモデルは、ALBERTアーキテクチャに基づく日本語の事前学習済みモデルで、様々な自然言語処理タスクの微調整に設計されており、特にマスク付き言語モデルタスクに優れています。

モデル特徴

日本語専用

日本語テキストに特化して最適化された事前学習済みモデル

ALBERTアーキテクチャ

軽量なALBERTアーキテクチャを採用し、パラメータ効率が高い

Sentencepieceによる形態素解析

Sentencepieceを形態素解析器として使用し、日本語テキストの処理に良好な結果をもたらす

モデル能力

日本語テキストの理解

マスク付き言語モデルの予測

自然言語処理タスクの微調整

使用事例

学術研究

学術分野の予測

学術研究で取り扱われる学術分野を予測する

「心理学」や「数学」などの学術分野名を正確に予測できる

テキスト補完

文章の補完

日本語の文章の欠落部分を自動的に補完する

文脈に基づいて合理的な補完提案を提供できる

🚀 albert-base-japanese-v1

このモデルは、日本語事前学習済みのALBERTモデルです。自然言語処理タスクに利用できます。

🚀 クイックスタート

✨ 主な機能

ファインチューニング可能なPreTrainedモデルで、各種タスクに対応。
Fill-Maskタスクでの使用が可能。

📦 インストール

原READMEにインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

基本的な使用法

このモデルは基本的に各種タスク用にファインチューニングして使用されることを想定しています。

高度な使用法

Fill-Mask

このモデルではTokenizerにSentencepieceを利用しています。そのままでは[MASK]トークンのあとに余計なトークンが混入する問題があるので、利用する際には以下のようにする必要があります。

for PyTorch

from transformers import (
    AlbertForMaskedLM, AlbertTokenizerFast
)
import torch


tokenizer = AlbertTokenizerFast.from_pretrained("ken11/albert-base-japanese-v1")
model = AlbertForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1")

text = "大学で[MASK]の研究をしています"
tokenized_text = tokenizer.tokenize(text)
del tokenized_text[tokenized_text.index(tokenizer.mask_token) + 1]

input_ids = [tokenizer.cls_token_id]
input_ids.extend(tokenizer.convert_tokens_to_ids(tokenized_text))
input_ids.append(tokenizer.sep_token_id)

inputs = {"input_ids": [input_ids], "token_type_ids": [[0]*len(input_ids)], "attention_mask": [[1]*len(input_ids)]}
batch = {k: torch.tensor(v, dtype=torch.int64) for k, v in inputs.items()}
output = model(**batch)[0]
_, result = output[0, input_ids.index(tokenizer.mask_token_id)].topk(5)

print(tokenizer.convert_ids_to_tokens(result.tolist()))
# ['英語', '心理学', '数学', '医学', '日本語']

for TensorFlow

from transformers import (
    TFAlbertForMaskedLM, AlbertTokenizerFast
)
import tensorflow as tf


tokenizer = AlbertTokenizerFast.from_pretrained("ken11/albert-base-japanese-v1")
model = TFAlbertForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1")

text = "大学で[MASK]の研究をしています"
tokenized_text = tokenizer.tokenize(text)
del tokenized_text[tokenized_text.index(tokenizer.mask_token) + 1]

input_ids = [tokenizer.cls_token_id]
input_ids.extend(tokenizer.convert_tokens_to_ids(tokenized_text))
input_ids.append(tokenizer.sep_token_id)

inputs = {"input_ids": [input_ids], "token_type_ids": [[0]*len(input_ids)], "attention_mask": [[1]*len(input_ids)]}
batch = {k: tf.convert_to_tensor(v, dtype=tf.int32) for k, v in inputs.items()}
output = model(**batch)[0]
result = tf.math.top_k(output[0, input_ids.index(tokenizer.mask_token_id)], k=5)

print(tokenizer.convert_ids_to_tokens(result.indices.numpy()))
# ['英語', '心理学', '数学', '医学', '日本語']