I

Indobert Large P2

由 indobenchmark 开发
IndoBERT是基于BERT模型针对印尼语开发的尖端语言模型,采用掩码语言建模(MLM)和下一句预测(NSP)目标进行训练。
下载量 2,272
发布时间 : 3/2/2022

模型简介

IndoBERT是针对印尼语优化的预训练语言模型,主要用于自然语言理解任务,支持印尼语文本的上下文表征提取和语言理解。

模型特点

印尼语优化
专门针对印尼语进行优化,适用于印尼语的自然语言处理任务。
大规模预训练
基于Indo4B数据集(23.43 GB文本)进行预训练,具有强大的语言理解能力。
无大小写区分
模型在第二阶段训练中不区分大小写,适用于不同大小写的文本输入。

模型能力

印尼语文本理解
上下文表征提取
掩码语言建模
下一句预测

使用案例

自然语言处理
文本分类
用于印尼语文本的分类任务,如情感分析、主题分类等。
命名实体识别
识别印尼语文本中的命名实体,如人名、地名、组织名等。
语言模型微调
下游任务微调
可用于微调以适配特定的印尼语NLP任务。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase