B

Bert Base Indonesian 522M

由cahya開發
基於印尼語維基百科預訓練的BERT基礎模型,採用掩碼語言建模(MLM)目標訓練,不區分大小寫。
下載量 2,799
發布時間 : 3/2/2022

模型概述

該模型是基於印尼語維基百科預訓練的BERT基礎模型,主要用於自然語言處理任務,如文本分類、文本生成等。

模型特點

不區分大小寫
模型不區分大小寫,例如'indonesia'和'Indonesia'會被視為相同。
基於印尼語維基百科
使用522MB的印尼語維基百科數據進行預訓練,適合印尼語自然語言處理任務。
WordPiece分詞
使用WordPiece進行分詞,詞彙量為32,000。

模型能力

掩碼語言建模
文本分類
文本生成
特徵提取

使用案例

自然語言處理
填充掩碼
使用模型預測句子中被掩碼的單詞。
如示例所示,模型能準確預測'Ibu ku sedang bekerja [MASK] supermarket'中的掩碼單詞為'di'。
文本特徵提取
使用模型提取文本的特徵表示,用於下游任務。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase