roberta-base-indonesian-522M開源印尼語預訓練模型 - 支持不區分大小寫文本處理

首頁

Roberta Base Indonesian 522M

由cahya開發

基於RoBERTa-base架構的印尼語預訓練模型，使用印尼語維基百科數據訓練，不區分大小寫。

大型語言模型其他開源協議:MIT #印尼語文本填充 #無大小寫敏感 #維基百科預訓練

下載量 454

發布時間 : 3/2/2022

模型概述

這是一個基於RoBERTa-base架構的模型，使用印尼語維基百科數據通過掩碼語言建模（MLM）目標進行預訓練。該模型不區分大小寫，適用於印尼語文本處理任務。

模型特點

無大小寫區分

模型不區分大小寫，例如'indonesia'和'Indonesia'被視為相同。

基於RoBERTa架構

採用RoBERTa-base架構，優化了原始BERT的訓練方法。

印尼語專用

專門針對印尼語進行預訓練，適用於印尼語文本處理任務。

模型能力

掩碼語言建模

文本特徵提取

印尼語文本處理

使用案例

文本處理

掩碼預測

預測文本中被掩碼的單詞

可準確預測印尼語文本中的缺失單詞

文本特徵提取

獲取文本的向量表示

可用於下游NLP任務的特徵輸入

🚀 印尼語RoBERTa基礎模型（不區分大小寫）

本模型是基於RoBERTa基礎架構，使用印尼語維基百科數據，通過掩碼語言建模（MLM）目標進行預訓練的模型。該模型不區分大小寫，例如“indonesia”和“Indonesia”對它而言是一樣的。它是使用印尼語數據集預訓練的多個語言模型之一。關於其在下游任務（如文本分類、文本生成等）中的使用詳情，可查看基於Transformer的印尼語語言模型。

🚀 快速開始

預期用途與限制

如何使用

你可以直接使用此模型進行掩碼語言建模任務：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/roberta-base-indonesian-522M')
>>> unmasker("Ibu ku sedang bekerja <mask> supermarket")

以下是在PyTorch中使用該模型獲取給定文本特徵的方法：

from transformers import RobertaTokenizer, RobertaModel

model_name='cahya/roberta-base-indonesian-522M'
tokenizer = RobertaTokenizer.from_pretrained(model_name)
model = RobertaModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中的使用方法如下：

from transformers import RobertaTokenizer, TFRobertaModel

model_name='cahya/roberta-base-indonesian-522M'
tokenizer = RobertaTokenizer.from_pretrained(model_name)
model = TFRobertaModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

🔧 技術細節

訓練數據

該模型使用了522MB的印尼語維基百科數據進行預訓練。文本經過小寫處理，並使用WordPiece進行分詞，詞彙表大小為32,000。模型的輸入格式如下： <s> Sentence A </s> Sentence B </s>

📄 許可證

本項目採用MIT許可證。

📦 相關數據集

印尼語維基百科

💻 使用示例

基礎用法

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/roberta-base-indonesian-522M')
>>> unmasker("Ibu ku sedang bekerja <mask> supermarket")

高級用法

PyTorch中獲取文本特徵

from transformers import RobertaTokenizer, RobertaModel

model_name='cahya/roberta-base-indonesian-522M'
tokenizer = RobertaTokenizer.from_pretrained(model_name)
model = RobertaModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

TensorFlow中獲取文本特徵

from transformers import RobertaTokenizer, TFRobertaModel

model_name='cahya/roberta-base-indonesian-522M'
tokenizer = RobertaTokenizer.from_pretrained(model_name)
model = TFRobertaModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)