B

Bert Base Indonesian 1.5G

cahyaによって開発
これはBERTに基づくインドネシア語の事前学習モデルで、ウィキペディアと新聞データを使って学習され、様々な自然言語処理タスクに適しています。
ダウンロード数 40.08k
リリース時間 : 3/2/2022

モデル概要

このモデルはBERTアーキテクチャに基づくインドネシア語の事前学習モデルで、マスク言語モデリングの目標を通じて学習され、インドネシア語のテキスト処理タスクをサポートします。

モデル特徴

大文字小文字の区別なし
モデルは大文字小文字を区別せず、異なる大文字小文字形式のインドネシア語テキストの処理に適しています。
大規模な事前学習データ
522MBのインドネシア語ウィキペディアと2018年の1GBのインドネシア新聞データを使って事前学習されます。
WordPieceトークナイゼーション
32,000語彙のWordPieceトークナイザーを使ってテキストを処理します。

モデル能力

テキスト特徴抽出
マスク言語モデリング
インドネシア語のテキスト処理

使用事例

自然言語処理
テキスト埋め込み
マスク言語モデリングを使って文の中の欠落した単語を予測します。
例では、モデルが「ibu ku sedang bekerja di supermarket」の中の「di」を正確に予測できることが示されています。
テキスト特徴抽出
インドネシア語テキストのベクトル表現を取得し、下流タスクに使用します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase