I

Indobertweet Base Uncased

由indolem開發
首個針對印尼推特的預訓練語言模型,通過擴展印尼BERT並添加領域特定詞彙構建
下載量 2,848
發布時間 : 3/2/2022

模型概述

IndoBERTweet是針對印尼推特優化的預訓練模型,採用有效的領域特定詞彙初始化方法,在多種印尼推特NLP任務上表現優異

模型特點

領域特定詞彙初始化
通過BERT子詞嵌入的平均池化初始化推特領域詞彙,比從頭訓練更高效
大規模預訓練數據
使用4.09億詞元的印尼推文數據,是IndoBERT訓練數據的兩倍
推特文本優化
專門處理用戶提及、URL和表情符號等推特特有內容

模型能力

印尼推特文本理解
情感分析
情緒識別
仇恨言論檢測
命名實體識別

使用案例

社交媒體分析
推特情感分析
分析印尼推特用戶對特定話題的情感傾向
在IndoLEM數據集上達到86.6%準確率
仇恨言論檢測
識別印尼推特中的仇恨言論內容
在HS1數據集上達到88.8%準確率
自然語言處理
命名實體識別
識別印尼推特文本中的人名、地名等實體
在正式文本數據集上達到88.1%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase