ビルマBERTオープンソースバイリンガルモデル - 英語とビルマ語のテキストの知的処理をサポート

ホーム

Burmesebert

jojo-ai-mstによって開発

ビルマ語-BERTはbert-large-uncasedをベースにしたバイリンガルマスク言語モデルで、英語とビルマ語をサポートしています。

大規模言語モデル

Transformers

複数言語対応#ビルマ語理解 #バイリンガルマスキング #BERTアーキテクチャ

ダウンロード数 20

リリース時間 : 5/28/2024

モデル概要

このモデルはTransformerアーキテクチャに基づく双方向エンコーダ表現で、主にビルマ語の自然言語理解タスクに使用されます。

モデル特徴

バイリンガルサポート

ビルマ語と英語の同時処理をサポート

BERTアーキテクチャベース

bert-large-uncasedをベースモデルとして採用

マスク言語モデリング

テキスト中のマスクされた単語を予測可能

モデル能力

ビルマ語テキスト理解

英語テキスト理解

マスク単語予測

使用事例

自然言語処理

ビルマ語テキスト補完

ビルマ語テキストの欠落部分を自動補完

バイリンガルテキスト分析

ビルマ語と英語の混合テキストを分析

🚀 ビルマ語BERT (Burmese-Bert)

ビルマ語BERTは、「bert-large-uncased」に基づくバイリンガルマスク言語モデルです。このアーキテクチャは、トランスフォーマーからの双方向エンコーダ表現に基づいており、英語とビルマ語をサポートしています。

🚀 クイックスタート

ビルマ語BERTを使用するには、まず依存関係をインストールする必要があります。以下のコマンドを使用して、transformersライブラリをインストールします。

# 依存関係のインストール
pip install transformers

次に、以下のPythonコードを使用してモデルをロードし、マスクトークンの予測を行います。

from transformers import AutoModelForMaskedLM,AutoTokenizer

model_checkpoint = "jojo-ai-mst/BurmeseBert"
model = AutoModelForMaskedLM.from_pretrained(model_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

text = "This is a great [MASK]."

import torch

inputs = tokenizer(text, return_tensors="pt")
token_logits = model(**inputs).logits
# [MASK]の位置を見つけ、そのロジットを抽出する
mask_token_index = torch.where(inputs["input_ids"] == tokenizer.mask_token_id)[1]
mask_token_logits = token_logits[0, mask_token_index, :]
# 最も高いロジットを持つ[MASK]候補を選択する
top_5_tokens = torch.topk(mask_token_logits, 5, dim=1).indices[0].tolist()

for token in top_5_tokens:
    print(f"'>>> {text.replace(tokenizer.mask_token, tokenizer.decode([token]))}'")

✨ 主な機能

マスク埋め込み言語モデル
ビルマ語の自然言語理解

📦 インストール

依存関係をインストールするには、以下のコマンドを実行します。

# 依存関係のインストール
pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoModelForMaskedLM,AutoTokenizer

model_checkpoint = "jojo-ai-mst/BurmeseBert"
model = AutoModelForMaskedLM.from_pretrained(model_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

text = "This is a great [MASK]."

import torch

inputs = tokenizer(text, return_tensors="pt")
token_logits = model(**inputs).logits
# [MASK]の位置を見つけ、そのロジットを抽出する
mask_token_index = torch.where(inputs["input_ids"] == tokenizer.mask_token_id)[1]
mask_token_logits = token_logits[0, mask_token_index, :]
# 最も高いロジットを持つ[MASK]候補を選択する
top_5_tokens = torch.topk(mask_token_logits, 5, dim=1).indices[0].tolist()

for token in top_5_tokens:
    print(f"'>>> {text.replace(tokenizer.mask_token, tokenizer.decode([token]))}'")