bert-base-indonesian-1.5G開源印尼語模型 - 適用多類自然語言處理任務

首頁

Bert Base Indonesian 1.5G

由cahya開發

這是一個基於BERT的印尼語預訓練模型，使用維基百科和報紙數據進行訓練，適用於多種自然語言處理任務。

大型語言模型其他開源協議:MIT #印尼語預訓練 #無大小寫區分 #掩碼語言建模

下載量 40.08k

發布時間 : 3/2/2022

模型概述

該模型是基於BERT架構的印尼語預訓練模型，通過掩碼語言建模目標進行訓練，支持印尼語文本處理任務。

模型特點

無大小寫區分

模型不區分大小寫，適用於處理不同大小寫形式的印尼語文本。

大規模預訓練數據

使用522MB的印尼語維基百科和1GB的2018年印尼報紙數據進行預訓練。

WordPiece分詞

使用32,000詞彙量的WordPiece分詞器處理文本。

模型能力

文本特徵提取

掩碼語言建模

印尼語文本處理

使用案例

自然語言處理

文本填充

使用掩碼語言建模預測句子中缺失的詞語。

示例中顯示模型能準確預測'ibu ku sedang bekerja di supermarket'中的'di'

文本特徵提取

獲取印尼語文本的向量表示，用於下游任務。

🚀 印尼語BERT基礎模型（不區分大小寫）

本模型是一個基於BERT基礎架構的預訓練模型，利用印尼語維基百科和印尼報紙數據，通過掩碼語言模型（MLM）目標進行預訓練。該模型不區分大小寫。它是使用印尼語數據集進行預訓練的多個語言模型之一。關於其在下游任務（如文本分類、文本生成等）中的使用詳情，可參考基於Transformer的印尼語語言模型。

🚀 快速開始

如何使用

你可以直接使用此模型進行掩碼語言建模：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/bert-base-indonesian-1.5G')
>>> unmasker("Ibu ku sedang bekerja [MASK] supermarket")

[{'sequence': '[CLS] ibu ku sedang bekerja di supermarket [SEP]',
  'score': 0.7983310222625732,
  'token': 1495},
 {'sequence': '[CLS] ibu ku sedang bekerja. supermarket [SEP]',
  'score': 0.090003103017807,
  'token': 17},
 {'sequence': '[CLS] ibu ku sedang bekerja sebagai supermarket [SEP]',
  'score': 0.025469014421105385,
  'token': 1600},
 {'sequence': '[CLS] ibu ku sedang bekerja dengan supermarket [SEP]',
  'score': 0.017966199666261673,
  'token': 1555},
 {'sequence': '[CLS] ibu ku sedang bekerja untuk supermarket [SEP]',
  'score': 0.016971781849861145,
  'token': 1572}]

以下是在PyTorch中使用該模型獲取給定文本特徵的方法：

from transformers import BertTokenizer, BertModel

model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中的使用方法如下：

from transformers import BertTokenizer, TFBertModel

model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/bert-base-indonesian-1.5G')
>>> unmasker("Ibu ku sedang bekerja [MASK] supermarket")

[{'sequence': '[CLS] ibu ku sedang bekerja di supermarket [SEP]',
  'score': 0.7983310222625732,
  'token': 1495},
 {'sequence': '[CLS] ibu ku sedang bekerja. supermarket [SEP]',
  'score': 0.090003103017807,
  'token': 17},
 {'sequence': '[CLS] ibu ku sedang bekerja sebagai supermarket [SEP]',
  'score': 0.025469014421105385,
  'token': 1600},
 {'sequence': '[CLS] ibu ku sedang bekerja dengan supermarket [SEP]',
  'score': 0.017966199666261673,
  'token': 1555},
 {'sequence': '[CLS] ibu ku sedang bekerja untuk supermarket [SEP]',
  'score': 0.016971781849861145,
  'token': 1572}]

高級用法

# 在不同深度學習框架中獲取文本特徵
# 在PyTorch中使用
from transformers import BertTokenizer, BertModel

model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

# 在TensorFlow中使用
from transformers import BertTokenizer, TFBertModel

model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📚 詳細文檔

文檔未提及詳細說明內容，故跳過此章節。

🔧 技術細節

文檔未提及技術實現細節內容，故跳過此章節。

📄 許可證

本模型採用MIT許可證。

📦 數據集信息

屬性	詳情
模型類型	基於BERT基礎架構的預訓練模型
訓練數據	該模型使用了522MB的印尼語維基百科數據和1GB的印尼報紙數據進行預訓練。文本經過小寫處理，並使用WordPiece進行分詞，詞彙表大小為32,000。模型的輸入格式為：`[CLS] Sentence A [SEP] Sentence B [SEP]`