SanBERTaオープンソースモデル - 無料でデプロイしてサンスクリット語テキストタスクの効率的な処理を支援

ホーム

Sanberta

surajpによって開発

SanBERTaはサンスクリットでトレーニングされたRoBERTaモデルで、サンスクリットテキストタスクの処理に特化しています。

大規模言語モデルその他#サンスクリット言語モデル #RoBERTaアーキテクチャ #低パープレキシティ

ダウンロード数 15

リリース時間 : 3/2/2022

モデル概要

SanBERTaはサンスクリットテキストでトレーニングされたRoBERTaモデルで、主に言語モデリングとテキスト埋め込みタスクに使用されます。サンスクリットテキストの処理と分析をサポートします。

モデル特徴

サンスクリット専用

サンスクリットテキストに特化してトレーニングおよび最適化されており、サンスクリット言語の特性をより効果的に処理できます。

効率的なトレーニング

TPU上でトレーニングされ、block_sizeを段階的に増加させてモデル性能を向上させます。

マルチタスクサポート

言語モデリング、テキスト埋め込み、マスク予測など、さまざまなタスクをサポートします。

モデル能力

サンスクリットテキスト埋め込み

サンスクリット言語モデリング

サンスクリットマスク予測

使用事例

テキスト処理

サンスクリットテキスト埋め込み

サンスクリットテキストを高次元ベクトル表現に変換し、後の機械学習タスクに使用します。

出力次元は768のベクトル

サンスクリットマスク予測

サンスクリットテキストでマスクされた単語を予測します。

予測精度が高く、パープレキシティは4.04

🚀 サンスクリットで学習されたRoBERTa (SanBERTa)

サンスクリット言語モデリングのために学習されたRoBERTaモデルで、エンベディングやマスク予測などのタスクに使用できます。

🚀 クイックスタート

SanBERTaは、サンスクリット言語のモデリングに特化したRoBERTaモデルです。以下に、基本的な使い方を示します。

✨ 主な機能

サンスクリット語のエンベディング生成
サンスクリット語のマスク予測

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

エンベディングの生成

tokenizer = AutoTokenizer.from_pretrained("surajp/SanBERTa")
model = RobertaModel.from_pretrained("surajp/SanBERTa")

op = tokenizer.encode("इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।", return_tensors="pt")
ps = model(op)
ps[0].shape

'''
出力:
--------
torch.Size([1, 47, 768])

マスク予測

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="surajp/SanBERTa",
    tokenizer="surajp/SanBERTa"
)

## इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।
fill_mask("इयं भाषा न केवल<mask> भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।")

ps = model(torch.tensor(enc).unsqueeze(1))
print(ps[0].shape)

'''
出力:
--------
[{'score': 0.7516744136810303,
  'sequence': '<s> इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।</s>',
  'token': 280,
  'token_str': 'à¤Ĥ'},
 {'score': 0.06230105459690094,
  'sequence': '<s> इयं भाषा न केवली भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।</s>',
  'token': 289,
  'token_str': 'à¥Ģ'},
 {'score': 0.055410224944353104,
  'sequence': '<s> इयं भाषा न केवला भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।</s>',
  'token': 265,
  'token_str': 'à¤¾'},
  ...]

📚 ドキュメント

データセット

Wikipedia articles (used in iNLTK)。評価セットを含んでいます。
Sanskrit scraps from CLTK

設定

パラメータ	値
`num_attention_heads`	12
`num_hidden_layers`	6
`hidden_size`	768
`vocab_size`	29407

学習

TPU上で学習
言語モデリングのための学習
エポックを通じて--block_sizeを128から256まで反復的に増加させる

評価

メトリック	値
パープレキシティ (`block_size=256`)	4.04

🔧 技術詳細

このモデルは、サンスクリット語のWikipedia記事やCLTKからのデータを使用して学習されたRoBERTaモデルです。学習はTPU上で行われ、言語モデリングの目的で行われました。

📄 ライセンス

@misc{Parmar2020Sanberta,
  author = {Parmar, Suraj},
  title = {SanBERTa - a RoBERTa trained on Sanskrit},
  year = {2020},
  month = {Jun},
  publisher = {Hugging Face Model Hub},
  url = {https://huggingface.co/surajp/SanBERTa}
}