wangchanberta-base-wiki-newmmオープンソースモデル - タイ語テキストタスクを無料で処理するために欠かせない！

ホーム

Wangchanberta Base Wiki Newmm

airesearchによって開発

タイ語ウィキペディアで事前学習されたRoBERTa BASEモデルで、タイ語テキスト処理タスクに適しています。

大規模言語モデルその他#タイ語事前学習 #ウィキペディアコーパス #RoBERTaアーキテクチャ

ダウンロード数 115

リリース時間 : 3/2/2022

モデル概要

このモデルは、タイ語ウィキペディアコーパスを使って事前学習されたRoBERTa BASEアーキテクチャのモデルで、主にタイ語テキストのマスク言語モデリングタスクに使用され、テキスト分類やラベル分類タスクにも使用できます。

モデル特徴

タイ語最適化

タイ語テキストに特化して事前学習と最適化が行われています。

マルチタスクサポート

テキスト分類や固有表現認識など、複数の下流タスクをサポートします。

大規模事前学習

タイ語ウィキペディアの大規模コーパスを使って事前学習されています。

モデル能力

マスク言語モデリング

テキスト分類

固有表現認識

品詞タグ付け

使用事例

感情分析

ソーシャルメディアの感情分析

ソーシャルメディアの投稿やツイートの感情傾向を分析します。

4種類の感情分類（ポジティブ、ニュートラル、ネガティブ、質問）をサポートします。

レビュー分析

ユーザーレビューの星評価予測

ユーザーのレビューの星評価（1 - 5星）を予測します。

ニュース分類

ニュースのトピック分類

ニュース記事をマルチラベルのトピック分類を行います。

12種類のトピックラベルをサポートします。

情報抽出

固有表現認識

テキストから固有表現を認識します。

13種類の固有表現タイプをサポートします。

🚀 WangchanBERTaベースモデル：`wangchanberta-base-wiki-newmm`

WangchanBERTaベースモデルは、タイ語のウィキペディアコーパスで事前学習されたRoBERTa BASEモデルで、様々な自然言語処理タスクに利用できます。スクリプトとドキュメントはこのリポジトリで見つけることができます。

🚀 クイックスタート

WangchanBERTaモデルの入門用ノートブックはこのColabノートブックで見つけることができます。

✨ 主な機能

モデルアーキテクチャ

事前学習モデルのアーキテクチャはRoBERTa [Liu et al., 2019]に基づいています。

想定される用途と制限

事前学習モデルを使用して、マスク言語モデリング（入力テキスト内のマスクされたトークンを予測する）を行うことができます。また、多クラス/多ラベルテキスト分類とタグ付け分類タスク用の微調整モデルも提供されています。

多クラステキスト分類
- wisesight_sentiment：ソーシャルメディアの投稿とツイートに基づく4クラスのテキスト分類タスク（positive、neutral、negative、question）。
- wongnai_reivews：ユーザーのレビュー評価分類タスク（評価範囲は1から5）。
- generated_reviews_enth：生成されたユーザーレビュー評価分類タスク（評価範囲は1から5）。
多ラベルテキスト分類
- prachathai67k：prachathai.comのニュース記事コーパスに基づく12ラベルのタイ語のトピック分類タスク。詳細はこのページを参照してください。
タグ付け分類
- thainer：13種類の命名エンティティを含む命名エンティティ認識タグ付け。詳細はこのページを参照してください。
- lst20：10種類の命名エンティティと16種類の品詞タグを含む命名エンティティ認識と品詞タグ付け。詳細はこのページを参照してください。

🔧 技術詳細

学習データ

wangchanberta-base-wiki-newmmモデルはタイ語のウィキペディアで事前学習されています。具体的には、2020年8月20日のウィキペディアのダンプ記事（dumps.wikimedia.org/thwiki/20200820/）を使用し、リストと表は除外しています。

前処理

テキストは以下の規則に従って前処理されます。

改行禁止スペース、ゼロ幅改行禁止スペース、ソフトハイフンをスペースに置き換えます。
最初の見出しの後に現れる空の括弧を削除します。
スペースを<_>に置き換えます。

語彙

PyThaiNLPに基づく辞書ベースの形態素解析器newmmを使用した単語レベルの形態素解析を行っています。語彙内の単語レベルのトークンの総数は97,982です。

文のサンプリング

連続した文をサンプリングし、その長さが最大512トークンになるようにします。一部の512トークンの境界を超える文については、追加のトークンをドキュメント区切り文字として使用して分割します。これは[Liu et al., 2019]で提案された方法（「FULL - SENTENCES」と呼ばれる）と同じです。

マスク処理

各シーケンスについて、15%のトークンをサンプリングし、トークンで置き換えます。この15%のうち、80%はトークンに置き換えられ、10%はそのまま維持され、10%はランダムなトークンに置き換えられます。

学習/検証/テストデータセットの分割

944,782個の文を順番に学習データセットとして、24,863個の文を検証データセットとして、24,862個の文をテストデータセットとして分割します。

事前学習

モデルは32個のV100 GPU上で31,250ステップ学習され、バッチサイズは8,192（各デバイスで16個のシーケンス、16個の累積ステップ）、シーケンス長は512トークンです。使用されるオプティマイザはAdamで、学習率は$7e - 4$、$\beta_1 = 0.9$、$\beta_2 = 0.98$、$\epsilon = 1e - 6$です。学習率は最初の1250ステップでウォームアップされ、その後線形にゼロまで減衰します。検証損失が最小のモデルチェックポイントが最適なモデルチェックポイントとして選択されます。

BibTeX引用

@misc{lowphansirikul2021wangchanberta,
      title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, 
      author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
      year={2021},
      eprint={2101.09635},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}