Gujarati-XLM-R-Base開源模型 - 免費部署助力古吉拉特語自然語言處理

Home

Gujarati XLM R Base

Developed by ashwani-tanwar

該模型基於XLM-RoBERTa的基礎變體，使用古吉拉特語和OSCAR單語數據集進行微調，適用於古吉拉特語的自然語言處理任務。

大型語言模型

Transformers

Other#古吉拉特語處理 #掩碼語言建模 #多語言遷移學習

Downloads 22

Release Time : 3/2/2022

Model Overview

該模型通過遷移學習在古吉拉特語上微調XLM-R，可用於生成上下文相關詞表示、預測缺失單詞及進一步微調其他NLP任務。

Model Features

遷移學習

基於預訓練的XLM-R模型進行微調，利用其父模型的知識提升性能。

多樣化數據集

使用OSCAR語料庫的古吉拉特語數據集，包含多種語言的不同數據，性能優於同質數據集。

Model Capabilities

生成古吉拉特語單詞的上下文相關詞表示

預測古吉拉特語句子中的缺失單詞

支持古吉拉特語的自然語言處理任務微調

Use Cases

自然語言處理

缺失單詞預測

預測古吉拉特語句子中的缺失單詞，如示例中的'શહેર'（城市）。

預測準確率高達94.6%

詞表示生成

生成古吉拉特語單詞的上下文相關詞表示，可用於下游任務。

🚀 古吉拉特語-XLM-R基礎模型

本模型基於XLM-RoBERTa（XLM-R）的基礎版本，使用OSCAR單語數據集，針對古吉拉特語進行了微調。我們採用了與預訓練XLM-R相同的掩碼語言建模（MLM）目標。由於該模型是在預訓練的XLM-R基礎上構建的，因此我們利用了其母模型的知識，運用了遷移學習技術。

✨ 主要特性

可用於使用古吉拉特語的不同自然語言處理（NLP）任務的進一步微調。
能夠為古吉拉特語單詞生成上下文相關的詞表示。
適用於領域自適應。
可用於預測古吉拉特語句子中缺失的單詞。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

使用該模型預測缺失的單詞：

from transformers import pipeline
unmasker = pipeline('fill-mask', model='ashwani-tanwar/Gujarati-XLM-R-Base')
pred_word = unmasker("અમદાવાદ એ ગુજરાતનું એક <mask> છે.")
print(pred_word)

輸出結果：

[{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એક શહેર છે.</s>', 'score': 0.9463568329811096, 'token': 85227, 'token_str': '▁શહેર'}, 
{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એક ગામ છે.</s>', 'score': 0.013311690650880337, 'token': 66346, 'token_str': '▁ગામ'}, 
{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એકનગર છે.</s>', 'score': 0.012945962138473988, 'token': 69702, 'token_str': 'નગર'}, 
{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એક સ્થળ છે.</s>', 'score': 0.0045941537246108055, 'token': 135436, 'token_str': '▁સ્થળ'}, 
{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એક મહત્વ છે.</s>', 'score': 0.00402021361514926, 'token': 126763, 'token_str': '▁મહત્વ'}]

高級用法

使用該模型生成上下文相關的詞表示：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("ashwani-tanwar/Gujarati-XLM-R-Base")
model = AutoModel.from_pretrained("ashwani-tanwar/Gujarati-XLM-R-Base")
sentence = "અમદાવાદ એ ગુજરાતનું એક શહેર છે."
encoded_sentence = tokenizer(sentence, return_tensors='pt')
context_word_rep = model(**encoded_sentence)