🚀 基尼亞盧旺達語預訓練模型 - KinyaRoBERTa
本項目是一個基於基尼亞盧旺達語數據集,採用掩碼語言建模(MLM)目標進行預訓練的模型。它能為基尼亞盧旺達語的相關自然語言處理任務提供強大支持,助力語言分析、文本理解等工作。
🚀 快速開始
本模型可以直接通過掩碼語言建模的管道進行使用,示例代碼如下:
from transformers import pipeline
the_mask_pipe = pipeline(
"fill-mask",
model='jean-paul/kinyaRoberta-small',
tokenizer='jean-paul/kinyaRoberta-small',
)
the_mask_pipe("Ejo ndikwiga nagize <mask> baje kunsura.")
[{'sequence': 'Ejo ndikwiga nagize amahirwe baje kunsura.', 'score': 0.3530674874782562, 'token': 1711, 'token_str': ' amahirwe'},
{'sequence': 'Ejo ndikwiga nagize ubwoba baje kunsura.', 'score': 0.2858319878578186, 'token': 2594, 'token_str': ' ubwoba'},
{'sequence': 'Ejo ndikwiga nagize ngo baje kunsura.', 'score': 0.032475441694259644, 'token': 396, 'token_str': ' ngo'},
{'sequence': 'Ejo ndikwiga nagize abana baje kunsura.', 'score': 0.029481062665581703, 'token': 739, 'token_str': ' abana'},
{'sequence': 'Ejo ndikwiga nagize abantu baje kunsura.', 'score': 0.016263306140899658, 'token': 500, 'token_str': ' abantu'}]
也可以直接從transformers
庫中使用AutoModel
來獲取特徵,示例如下:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("jean-paul/kinyaRoberta-small")
model = AutoModelForMaskedLM.from_pretrained("jean-paul/kinyaRoberta-small")
input_text = "Ejo ndikwiga nagize abashyitsi baje kunsura."
encoded_input = tokenizer(input_text, return_tensors='pt')
output = model(**encoded_input)
✨ 主要特性
- 預訓練模型:基於基尼亞盧旺達語數據集進行預訓練,能更好地適應基尼亞盧旺達語的語言特點。
- 大小寫不敏感:模型使用無大小寫區分的標記進行預訓練,例如
ikinyarwanda
和Ikinyarwanda
被視為相同。
📚 詳細文檔
訓練參數
數據集
訓練使用的數據集來源廣泛,包括從不同新聞網頁提取的盧旺達新聞文章、維基百科轉儲文件以及基尼亞盧旺達語書籍。具體數據規模如下:
數據來源 |
數量 |
新聞文章 |
7.2萬篇 |
維基百科文章 |
3000篇 |
書籍 |
6本(每本超過1000頁) |
超參數
模型使用Huggingface中RoBerta和Trainer的默認配置進行訓練。不過,由於計算資源的限制,將Transformer層數設置為6。
注意事項
我們使用Huggingface的實現從頭開始預訓練RoBerta,包括RoBerta模型及其所需的類。