I

Indobert Base Uncased

indolemによって開発
IndoBERTは、インドネシア語に特化して最適化されたBERTモデルで、複数のインドネシア語NLPタスクで優れた性能を発揮します。
ダウンロード数 26.35k
リリース時間 : 3/2/2022

モデル概要

インドネシア語版のBERTモデルで、IndoLEMベンチマークテストセットを評価するために使用され、形態構文、意味、篇章の7つのタスクをカバーしています。

モデル特徴

インドネシア語最適化
インドネシア語に特化して学習され、2億2000万語以上のインドネシア語コーパスを使用しています。
マルチタスクでの優れた性能
品詞タグ付け、固有表現認識、感情分析などの7つのインドネシア語NLPタスクで他のモデルを上回っています。
英語のBERTと同等
開発セットでの困惑度は3.97で、英語のBERT基礎版と同等です。

モデル能力

品詞タグ付け
固有表現認識
依存構文解析
感情分析
要約生成
ツイート予測
ツイートの並べ替え

使用事例

自然言語処理
インドネシア語の品詞タグ付け
インドネシア語のテキスト内の単語に品詞を付けます。
正解率96.8%で、Bi - LSTMやmBERTより優れています。
インドネシア語の固有表現認識
インドネシア語のテキスト内の固有表現を識別します。
UIデータセットのF1値は90.1%、UGMデータセットのF1値は74.9%です。
インドネシア語の感情分析
インドネシア語のテキストの感情傾向を分析します。
F1値は84.13%で、他の比較対象のモデルより優れています。
ソーシャルメディア分析
次のツイートの予測
インドネシア語のユーザーが送信する可能性のある次のツイートを予測します。
正解率93.7%です。
ツイートの並べ替え
インドネシア語のツイートを関連性で並べ替えます。
スピアマンの相関係数は0.59です。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase