bert-base-indonesian-522M開源模型 - 支持印尼語文本處理，免費可用！

首頁

Bert Base Indonesian 522M

由cahya開發

基於印尼語維基百科預訓練的BERT基礎模型，採用掩碼語言建模（MLM）目標訓練，不區分大小寫。

大型語言模型其他開源協議:MIT #印尼語預訓練 #不區分大小寫 #掩碼語言建模

下載量 2,799

發布時間 : 3/2/2022

模型概述

該模型是基於印尼語維基百科預訓練的BERT基礎模型，主要用於自然語言處理任務，如文本分類、文本生成等。

模型特點

不區分大小寫

模型不區分大小寫，例如'indonesia'和'Indonesia'會被視為相同。

基於印尼語維基百科

使用522MB的印尼語維基百科數據進行預訓練，適合印尼語自然語言處理任務。

WordPiece分詞

使用WordPiece進行分詞，詞彙量為32,000。

模型能力

掩碼語言建模

文本分類

文本生成

特徵提取

使用案例

自然語言處理

填充掩碼

使用模型預測句子中被掩碼的單詞。

如示例所示，模型能準確預測'Ibu ku sedang bekerja [MASK] supermarket'中的掩碼單詞為'di'。

文本特徵提取

使用模型提取文本的特徵表示，用於下游任務。

🚀 印尼語BERT基礎模型（不區分大小寫）

這是一個基於BERT基礎架構的預訓練模型，使用印尼語維基百科數據，通過掩碼語言建模（MLM）目標進行訓練。該模型不區分大小寫，例如“indonesia”和“Indonesia”會被視為相同。它是多個使用印尼語數據集預訓練的語言模型之一。更多關於其在下游任務（如文本分類、文本生成等）的使用細節，可查看基於Transformer的印尼語語言模型。

🚀 快速開始

如何使用

你可以直接使用這個模型進行掩碼語言建模任務：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/bert-base-indonesian-522M')
>>> unmasker("Ibu ku sedang bekerja [MASK] supermarket")

[{'sequence': '[CLS] ibu ku sedang bekerja di supermarket [SEP]',
  'score': 0.7983310222625732,
  'token': 1495},
 {'sequence': '[CLS] ibu ku sedang bekerja. supermarket [SEP]',
  'score': 0.090003103017807,
  'token': 17},
 {'sequence': '[CLS] ibu ku sedang bekerja sebagai supermarket [SEP]',
  'score': 0.025469014421105385,
  'token': 1600},
 {'sequence': '[CLS] ibu ku sedang bekerja dengan supermarket [SEP]',
  'score': 0.017966199666261673,
  'token': 1555},
 {'sequence': '[CLS] ibu ku sedang bekerja untuk supermarket [SEP]',
  'score': 0.016971781849861145,
  'token': 1572}]

以下是在PyTorch中使用該模型獲取給定文本特徵的方法：

from transformers import BertTokenizer, BertModel

model_name='cahya/bert-base-indonesian-522M'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中的使用方法如下：

from transformers import BertTokenizer, TFBertModel

model_name='cahya/bert-base-indonesian-522M'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

✨ 主要特性

該模型是使用印尼語維基百科數據預訓練的BERT基礎模型，採用掩碼語言建模目標。不區分大小寫，適用於多種下游任務。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

基礎用法

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/bert-base-indonesian-522M')
>>> unmasker("Ibu ku sedang bekerja [MASK] supermarket")

[{'sequence': '[CLS] ibu ku sedang bekerja di supermarket [SEP]',
  'score': 0.7983310222625732,
  'token': 1495},
 {'sequence': '[CLS] ibu ku sedang bekerja. supermarket [SEP]',
  'score': 0.090003103017807,
  'token': 17},
 {'sequence': '[CLS] ibu ku sedang bekerja sebagai supermarket [SEP]',
  'score': 0.025469014421105385,
  'token': 1600},
 {'sequence': '[CLS] ibu ku sedang bekerja dengan supermarket [SEP]',
  'score': 0.017966199666261673,
  'token': 1555},
 {'sequence': '[CLS] ibu ku sedang bekerja untuk supermarket [SEP]',
  'score': 0.016971781849861145,
  'token': 1572}]

高級用法

在PyTorch中獲取文本特徵：

from transformers import BertTokenizer, BertModel

model_name='cahya/bert-base-indonesian-522M'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中獲取文本特徵：

from transformers import BertTokenizer, TFBertModel

model_name='cahya/bert-base-indonesian-522M'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)