Indobertweet-base-uncasedオープンソース言語モデル - インドネシアのツイッターに特化して開発され、テキスト分析を支援

ホーム

Indobertweet Base Uncased

indolemによって開発

インドネシアTwitter向け初の事前学習言語モデル。インドネシアBERTを拡張し、ドメイン固有語彙を追加して構築

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #インドネシアTwitter分析 #ドメイン語彙最適化 #マルチタスクNLP

ダウンロード数 2,848

リリース時間 : 3/2/2022

モデル概要

IndoBERTweetはインドネシアTwitterに最適化された事前学習モデルで、効果的なドメイン固有語彙初期化手法を採用し、様々なインドネシアTwitter NLPタスクで優れた性能を発揮

モデル特徴

ドメイン固有語彙初期化

BERTサブワード埋め込みの平均プーリングでTwitterドメイン語彙を初期化。ゼロからの学習より効率的

大規模事前学習データ

4億900万トークンのインドネシアツイートデータを使用。IndoBERTの学習データの2倍

Twitterテキスト最適化

ユーザーメンション、URL、絵文字などTwitter特有のコンテンツを専門的に処理

モデル能力

インドネシアTwitterテキスト理解

感情分析

感情認識

ヘイトスピーチ検出

固有表現認識

使用事例

ソーシャルメディア分析

Twitter感情分析

インドネシアTwitterユーザーの特定トピックに対する感情傾向を分析

IndoLEMデータセットで86.6%の精度を達成

ヘイトスピーチ検出

インドネシアTwitter内のヘイトスピーチコンテンツを識別

HS1データセットで88.8%の精度を達成

自然言語処理

固有表現認識

インドネシアTwitterテキスト内の人名、地名などの実体を認識

正式テキストデータセットで88.1%の精度を達成

🚀 IndoBERTweet 🐦

IndoBERTweetは、インドネシア語のTwitter向けに開発された事前学習言語モデルです。特定ドメインの語彙を効果的に初期化することで、Twitterの文脈に特化した性能を発揮します。

🚀 クイックスタート

モデルとトークナイザーの読み込み

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("indolem/indobertweet-base-uncased")
model = AutoModel.from_pretrained("indolem/indobertweet-base-uncased")

前処理手順

すべての単語を小文字にする
ユーザーメンションとURLをそれぞれ@USERとHTTPURLに変換する
emojiパッケージを使用して絵文字をテキストに変換する

✨ 主な機能

IndoBERTweetは、インドネシア語のTwitterデータに特化した事前学習モデルです。特定ドメインの語彙を平均プーリングによって初期化することで、ゼロからの事前学習よりも効率的で、word2vec投影に基づく初期化よりも効果的です。

📚 ドキュメント

論文

Fajri Koto, Jey Han Lau, and Timothy Baldwin. IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with Effective Domain-Specific Vocabulary Initialization. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021), Dominican Republic (virtual).

概要

IndoBERTweetは、インドネシア語のTwitter向けの最初の大規模事前学習モデルです。単言語で学習されたインドネシア語のBERTモデルに、特定ドメインの語彙を追加して学習されています。

事前学習データ

2019年12月から2020年12月までの1年間、公式Twitter APIを使用してインドネシア語のツイートを収集しました。経済、健康、教育、政府の4つの主要トピックをカバーする60のキーワードを使用し、合計4億900万語トークンを取得しました。これは、IndoBERTの事前学習に使用されたトレーニングデータの2倍のサイズです。Twitterのポリシーにより、この事前学習データは公開されません。

7つのインドネシア語Twitterデータセットでの結果

モデル	感情分析 (IndoLEM)	感情分析 (SmSA)	エモーション分析 (EmoT)	ヘイトスピーチ検出 (HS1)	ヘイトスピーチ検出 (HS2)	固有表現抽出 (Formal)	固有表現抽出 (Informal)	平均
mBERT	76.6	84.7	67.5	85.1	75.1	85.2	83.2	79.6
malayBERT	82.0	84.1	74.2	85.0	81.9	81.9	81.3	81.5
IndoBERT (Willie, et al., 2020)	84.1	88.7	73.3	86.8	80.4	86.3	84.3	83.4
IndoBERT (Koto, et al., 2020)	84.1	87.9	71.0	86.4	79.3	88.0	86.9	83.4
IndoBERTweet (1M steps from scratch)	86.2	90.4	76.0	88.8	87.5	88.1	85.4	86.1
IndoBERT + Voc adaptation + 200k steps	86.6	92.7	79.0	88.4	84.0	87.7	86.9	86.5

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で公開されています。

引用

もしこの研究を利用する場合は、以下のように引用してください。

@inproceedings{koto2021indobertweet,
  title={IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with Effective Domain-Specific Vocabulary Initialization},
  author={Fajri Koto and Jey Han Lau and Timothy Baldwin},
  booktitle={Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021)},
  year={2021}
}