グジャラート語 - XLM - R - Baseオープンソースモデル - 無料デプロイでグジャラート語の自然言語処理をサポート

ホーム

Gujarati XLM R Base

ashwani-tanwarによって開発

このモデルはXLM-RoBERTaの基本バリアントを基にしており、グジャラート語とOSCARの単一言語データセットでファインチューニングされており、グジャラート語の自然言語処理タスクに適しています。

大規模言語モデル

Transformers

その他#グジャラート語処理 #マスク言語モデリング #多言語転移学習

ダウンロード数 22

リリース時間 : 3/2/2022

モデル概要

このモデルは転移学習によりグジャラート語でXLM-Rをファインチューニングしており、文脈依存の単語表現生成、欠落単語の予測、その他のNLPタスクのさらなるファインチューニングに使用できます。

モデル特徴

転移学習

事前学習済みのXLM-Rモデルを基にファインチューニングを行い、親モデルの知識を活用して性能を向上させています。

多様なデータセット

OSCARコーパスのグジャラート語データセットを使用しており、複数の言語の異なるデータを含み、均質なデータセットよりも優れた性能を発揮します。

モデル能力

グジャラート語単語の文脈依存表現生成

グジャラート語文章の欠落単語予測

グジャラート語の自然言語処理タスクのファインチューニング対応

使用事例

自然言語処理

欠落単語予測

グジャラート語文章の欠落単語を予測します。例文の'શહેર'（都市）のように。

予測精度は94.6%に達します

単語表現生成

グジャラート語単語の文脈依存表現を生成し、下流タスクに使用できます。

🚀 グジャラート語 - XLM - Rベースモデル

このモデルは、[XLM - RoBERTa](https://huggingface.co/xlm - roberta - base)（XLM - R）のベースバージョンをベースに、[OSCAR](https://oscar - corpus.com/)の単言語データセットを使用して、グジャラート語に対して微調整されています。私たちは、事前学習されたXLM - Rと同じマスク言語モデリング（MLM）の目標を採用しています。このモデルは事前学習されたXLM - Rを基に構築されているため、母モデルの知識を利用し、転移学習技術を活用しています。

✨ 主な機能

グジャラート語を使用する様々な自然言語処理（NLP）タスクのさらなる微調整に使用できます。
グジャラート語の単語に対して文脈に関連した単語表現を生成することができます。
ドメイン適応に適しています。
グジャラート語の文章中の欠落した単語を予測するために使用できます。

💻 使用例

基本的な使用法

このモデルを使用して欠落した単語を予測する例です。

from transformers import pipeline
unmasker = pipeline('fill-mask', model='ashwani-tanwar/Gujarati-XLM-R-Base')
pred_word = unmasker("અમદાવાદ એ ગુજરાતનું એક <mask> છે.")
print(pred_word)

出力結果：

[{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એક શહેર છે.</s>', 'score': 0.9463568329811096, 'token': 85227, 'token_str': '▁શહેર'}, 
{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એક ગામ છે.</s>', 'score': 0.013311690650880337, 'token': 66346, 'token_str': '▁ગામ'}, 
{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એકનગર છે.</s>', 'score': 0.012945962138473988, 'token': 69702, 'token_str': 'નગર'}, 
{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એક સ્થળ છે.</s>', 'score': 0.0045941537246108055, 'token': 135436, 'token_str': '▁સ્થળ'}, 
{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એક મહત્વ છે.</s>', 'score': 0.00402021361514926, 'token': 126763, 'token_str': '▁મહત્વ'}]

高度な使用法

このモデルを使用して文脈に関連した単語表現を生成する例です。

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("ashwani-tanwar/Gujarati-XLM-R-Base")
model = AutoModel.from_pretrained("ashwani-tanwar/Gujarati-XLM-R-Base")
sentence = "અમદાવાદ એ ગુજરાતનું એક શહેર છે."
encoded_sentence = tokenizer(sentence, return_tensors='pt')
context_word_rep = model(**encoded_sentence)