B

Bert Base Indonesian 1.5G

由cahya開發
這是一個基於BERT的印尼語預訓練模型,使用維基百科和報紙數據進行訓練,適用於多種自然語言處理任務。
下載量 40.08k
發布時間 : 3/2/2022

模型概述

該模型是基於BERT架構的印尼語預訓練模型,通過掩碼語言建模目標進行訓練,支持印尼語文本處理任務。

模型特點

無大小寫區分
模型不區分大小寫,適用於處理不同大小寫形式的印尼語文本。
大規模預訓練數據
使用522MB的印尼語維基百科和1GB的2018年印尼報紙數據進行預訓練。
WordPiece分詞
使用32,000詞彙量的WordPiece分詞器處理文本。

模型能力

文本特徵提取
掩碼語言建模
印尼語文本處理

使用案例

自然語言處理
文本填充
使用掩碼語言建模預測句子中缺失的詞語。
示例中顯示模型能準確預測'ibu ku sedang bekerja di supermarket'中的'di'
文本特徵提取
獲取印尼語文本的向量表示,用於下游任務。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase