Indobert Base Uncased
IndoBERTは、インドネシア語に特化して最適化されたBERTモデルで、複数のインドネシア語NLPタスクで優れた性能を発揮します。
ダウンロード数 26.35k
リリース時間 : 3/2/2022
モデル概要
インドネシア語版のBERTモデルで、IndoLEMベンチマークテストセットを評価するために使用され、形態構文、意味、篇章の7つのタスクをカバーしています。
モデル特徴
インドネシア語最適化
インドネシア語に特化して学習され、2億2000万語以上のインドネシア語コーパスを使用しています。
マルチタスクでの優れた性能
品詞タグ付け、固有表現認識、感情分析などの7つのインドネシア語NLPタスクで他のモデルを上回っています。
英語のBERTと同等
開発セットでの困惑度は3.97で、英語のBERT基礎版と同等です。
モデル能力
品詞タグ付け
固有表現認識
依存構文解析
感情分析
要約生成
ツイート予測
ツイートの並べ替え
使用事例
自然言語処理
インドネシア語の品詞タグ付け
インドネシア語のテキスト内の単語に品詞を付けます。
正解率96.8%で、Bi - LSTMやmBERTより優れています。
インドネシア語の固有表現認識
インドネシア語のテキスト内の固有表現を識別します。
UIデータセットのF1値は90.1%、UGMデータセットのF1値は74.9%です。
インドネシア語の感情分析
インドネシア語のテキストの感情傾向を分析します。
F1値は84.13%で、他の比較対象のモデルより優れています。
ソーシャルメディア分析
次のツイートの予測
インドネシア語のユーザーが送信する可能性のある次のツイートを予測します。
正解率93.7%です。
ツイートの並べ替え
インドネシア語のツイートを関連性で並べ替えます。
スピアマンの相関係数は0.59です。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98