kinyaRoberta-small开源语言模型 - 基于基尼亚卢旺达语数据集实用语言处理

首页

Kinyaroberta Small

由 jean-paul 开发

这是一个基于基尼亚卢旺达语数据集、采用掩码语言建模（MLM）目标预训练的RoBERTa模型，使用无大小写区分标记进行预训练。

大型语言模型

Transformers

#基尼亚卢旺达语MLM #小规模预训练 #新闻维基书籍语料

下载量 38

发布时间 : 3/2/2022

模型简介

该模型专门针对基尼亚卢旺达语进行优化，适用于文本填充和语言理解任务。

模型特点

基尼亚卢旺达语专用

专门针对基尼亚卢旺达语训练，能更好地理解和生成该语言文本。

无大小写区分

模型在预训练时不区分大小写，提高了对文本变体的处理能力。

轻量级架构

采用6层Transformer结构，适合计算资源有限的环境。

模型能力

文本填充

语言理解

基尼亚卢旺达语文本处理

使用案例

文本补全

句子自动补全

自动填充句子中的缺失部分

示例中展示了模型能合理预测缺失词语

语言学习

基尼亚卢旺达语学习辅助

帮助学习者理解和使用基尼亚卢旺达语

🚀 基尼亚卢旺达语预训练模型 - KinyaRoBERTa

本项目是一个基于基尼亚卢旺达语数据集，采用掩码语言建模（MLM）目标进行预训练的模型。它能为基尼亚卢旺达语的相关自然语言处理任务提供强大支持，助力语言分析、文本理解等工作。

🚀 快速开始

本模型可以直接通过掩码语言建模的管道进行使用，示例代码如下：

from transformers import pipeline
the_mask_pipe = pipeline(
    "fill-mask",
    model='jean-paul/kinyaRoberta-small',
    tokenizer='jean-paul/kinyaRoberta-small',
)

the_mask_pipe("Ejo ndikwiga nagize <mask> baje kunsura.")

[{'sequence': 'Ejo ndikwiga nagize amahirwe baje kunsura.', 'score': 0.3530674874782562, 'token': 1711, 'token_str': ' amahirwe'}, 
{'sequence': 'Ejo ndikwiga nagize ubwoba baje kunsura.', 'score': 0.2858319878578186, 'token': 2594, 'token_str': ' ubwoba'}, 
{'sequence': 'Ejo ndikwiga nagize ngo baje kunsura.', 'score': 0.032475441694259644, 'token': 396, 'token_str': ' ngo'}, 
{'sequence': 'Ejo ndikwiga nagize abana baje kunsura.', 'score': 0.029481062665581703, 'token': 739, 'token_str': ' abana'}, 
{'sequence': 'Ejo ndikwiga nagize abantu baje kunsura.', 'score': 0.016263306140899658, 'token': 500, 'token_str': ' abantu'}]

也可以直接从transformers库中使用AutoModel来获取特征，示例如下：

from transformers import AutoTokenizer, AutoModelForMaskedLM
  
tokenizer = AutoTokenizer.from_pretrained("jean-paul/kinyaRoberta-small")

model = AutoModelForMaskedLM.from_pretrained("jean-paul/kinyaRoberta-small")

input_text = "Ejo ndikwiga nagize abashyitsi baje kunsura."
encoded_input = tokenizer(input_text, return_tensors='pt')
output = model(**encoded_input)