🚀 ビルマ語BERT (Burmese-Bert)
ビルマ語BERTは、「bert-large-uncased」に基づくバイリンガルマスク言語モデルです。このアーキテクチャは、トランスフォーマーからの双方向エンコーダ表現に基づいており、英語とビルマ語をサポートしています。
🚀 クイックスタート
ビルマ語BERTを使用するには、まず依存関係をインストールする必要があります。以下のコマンドを使用して、transformers
ライブラリをインストールします。
# 依存関係のインストール
pip install transformers
次に、以下のPythonコードを使用してモデルをロードし、マスクトークンの予測を行います。
from transformers import AutoModelForMaskedLM,AutoTokenizer
model_checkpoint = "jojo-ai-mst/BurmeseBert"
model = AutoModelForMaskedLM.from_pretrained(model_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
text = "This is a great [MASK]."
import torch
inputs = tokenizer(text, return_tensors="pt")
token_logits = model(**inputs).logits
mask_token_index = torch.where(inputs["input_ids"] == tokenizer.mask_token_id)[1]
mask_token_logits = token_logits[0, mask_token_index, :]
top_5_tokens = torch.topk(mask_token_logits, 5, dim=1).indices[0].tolist()
for token in top_5_tokens:
print(f"'>>> {text.replace(tokenizer.mask_token, tokenizer.decode([token]))}'")
✨ 主な機能
📦 インストール
依存関係をインストールするには、以下のコマンドを実行します。
# 依存関係のインストール
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModelForMaskedLM,AutoTokenizer
model_checkpoint = "jojo-ai-mst/BurmeseBert"
model = AutoModelForMaskedLM.from_pretrained(model_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
text = "This is a great [MASK]."
import torch
inputs = tokenizer(text, return_tensors="pt")
token_logits = model(**inputs).logits
mask_token_index = torch.where(inputs["input_ids"] == tokenizer.mask_token_id)[1]
mask_token_logits = token_logits[0, mask_token_index, :]
top_5_tokens = torch.topk(mask_token_logits, 5, dim=1).indices[0].tolist()
for token in top_5_tokens:
print(f"'>>> {text.replace(tokenizer.mask_token, tokenizer.decode([token]))}'")
📚 ドキュメント
モデルの詳細
- 開発者: Min Si Thu
- モデルタイプ: トランスフォーマーからの双方向エンコーダ表現
- 言語 (NLP): [詳細情報待ち]
- ライセンス: [詳細情報待ち]
- ファインチューニング元のモデル [オプション]: [詳細情報待ち]
モデルのソース [オプション]
- リポジトリ: [詳細情報待ち]
- 論文 [オプション]: [詳細情報待ち]
- デモ [オプション]: [詳細情報待ち]