distilbert-base-indonesian開源模型 - 專為印尼語處理設計，無大小寫限制更便捷

首頁

Distilbert Base Indonesian

由cahya開發

這是印尼語BERT基礎模型的蒸餾版本，專為印尼語處理設計，採用無大小寫格式。

大型語言模型

Transformers

其他開源協議:MIT #印尼語文本處理 #蒸餾版BERT #無大小寫模型

下載量 1,815

發布時間 : 3/2/2022

模型概述

該模型是基於印尼語數據集預訓練的語言模型，適用於文本分類、文本生成等下游任務。

模型特點

蒸餾模型

基於印尼語BERT基礎模型的蒸餾版本，保留了大部分性能但模型更輕量。

無大小寫處理

所有輸入文本均經過小寫處理，簡化了文本預處理步驟。

印尼語優化

專門針對印尼語進行預訓練，適合印尼語文本處理任務。

模型能力

掩碼語言建模

文本特徵提取

文本分類

文本生成

使用案例

文本處理

填充掩碼

預測句子中被掩碼的詞語

如示例所示，能準確預測印尼語語境中的合適詞語

文本特徵提取

獲取文本的向量表示

可用於下游任務如分類或相似度計算

🚀 印度尼西亞DistilBERT基礎模型（不區分大小寫）

本模型是一個基於印度尼西亞語的預訓練模型，它為印度尼西亞語的文本處理任務提供了高效且強大的支持，可用於文本分類、生成等多種下游任務。

🚀 快速開始

本模型是印度尼西亞BERT基礎模型的蒸餾版本，不區分大小寫。它是使用印度尼西亞語數據集預訓練的多個語言模型之一。有關其在下游任務（文本分類、文本生成等）中的使用詳情，可查看基於Transformer的印度尼西亞語言模型。

✨ 主要特性

蒸餾版本：在保留原模型能力的同時，減少了模型大小和推理時間。
不區分大小寫：處理文本時不考慮大小寫差異。
多下游任務支持：可用於文本分類、文本生成等多種任務。

📦 安裝指南

文檔未提及安裝步驟，如需使用該模型，可參考Hugging Face的相關文檔進行安裝。

💻 使用示例

基礎用法

你可以直接使用這個模型進行掩碼語言建模：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/distilbert-base-indonesian')
>>> unmasker("Ayahku sedang bekerja di sawah untuk [MASK] padi")

[
  {
    "sequence": "[CLS] ayahku sedang bekerja di sawah untuk menanam padi [SEP]",
    "score": 0.6853187084197998,
    "token": 12712,
    "token_str": "menanam"
  },
  {
    "sequence": "[CLS] ayahku sedang bekerja di sawah untuk bertani padi [SEP]",
    "score": 0.03739545866847038,
    "token": 15484,
    "token_str": "bertani"
  },
  {
    "sequence": "[CLS] ayahku sedang bekerja di sawah untuk memetik padi [SEP]",
    "score": 0.02742469497025013,
    "token": 30338,
    "token_str": "memetik"
  },
  {
    "sequence": "[CLS] ayahku sedang bekerja di sawah untuk penggilingan padi [SEP]",
    "score": 0.02214187942445278,
    "token": 28252,
    "token_str": "penggilingan"
  },
  {
    "sequence": "[CLS] ayahku sedang bekerja di sawah untuk tanam padi [SEP]",
    "score": 0.0185895636677742,
    "token": 11308,
    "token_str": "tanam"
  }
]

高級用法

以下是如何在PyTorch中使用該模型獲取給定文本的特徵：

from transformers import DistilBertTokenizer, DistilBertModel

model_name='cahya/distilbert-base-indonesian'
tokenizer = DistilBertTokenizer.from_pretrained(model_name)
model = DistilBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中的使用方式如下：

from transformers import DistilBertTokenizer, TFDistilBertModel

model_name='cahya/distilbert-base-indonesian'
tokenizer = DistilBertTokenizer.from_pretrained(model_name)
model = TFDistilBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

🔧 技術細節

本模型使用522MB的印度尼西亞語維基百科數據和1GB的印度尼西亞報紙數據進行蒸餾訓練。文本經過小寫處理，並使用WordPiece進行分詞，詞彙表大小為32,000。模型的輸入格式為： [CLS] 句子A [SEP] 句子B [SEP]

📄 許可證

本模型採用MIT許可證。

屬性	詳情
模型類型	印度尼西亞DistilBERT基礎模型（不區分大小寫）
訓練數據	522MB的印度尼西亞語維基百科數據和1GB的印度尼西亞報紙數據