roberta-hindiオープンソースモデル - ヒンディー語のデータを使って事前学習され、マスク言語モデリングをサポート

ホーム

Roberta Hindi

flax-communityによって開発

大規模なヒンディー語データで事前学習されたRoBERTaモデル、マスク言語モデリングタスクをサポート

大規模言語モデル #ヒンディー語テキスト補完 #マルチソースデータ事前学習 #動的マスキング戦略

ダウンロード数 212

リリース時間 : 3/2/2022

モデル概要

これはヒンディー語データで事前学習されたRoBERTaモデルで、マスク言語モデリング(MLM)目標で訓練されており、テキスト補完などの自然言語処理タスクに使用可能です。

モデル特徴

大規模ヒンディー語事前学習

mc4、oscar、indic-nlpなどの大規模ヒンディー語データセットを統合して事前学習

動的マスキング戦略

15%の動的マスキング比率を採用、うち80%は<mask>に置換、10%はランダム置換、10%はそのまま保持

複数データセット統合

ニュース、レビュー、ウィキデータなど複数の高品質ヒンディー語データセットを統合

モデル能力

ヒンディー語テキスト補完

ヒンディー語テキスト理解

ヒンディー語言語モデル推論

使用事例

テキスト処理

テキスト自動補完

ヒンディー語文章の欠落部分を自動補完

例に示す通り'सफर'(旅)、'पल'(瞬間)などの適切な語彙を正確に予測可能

感情分析

製品レビュー分析

ヒンディー語製品レビューの感情傾向を分析

IITP製品レビューデータセットで75.53%の精度を達成

🚀 ヒンディー語用RoBERTaベースモデル

マスク言語モデリング（MLM）の目的でヒンディー語に対して事前学習されたモデルです。よりインタラクティブな比較デモはこちらで利用可能です。

これは、Hugging Faceが主催し、GoogleがTPUの使用を支援する Flax/Jaxコミュニティウィークの一部です。

📚 モデルの説明

RoBERTa Hindiは、大量のヒンディー語データ（mc4、oscar、indic - nlpデータセットの組み合わせ）で事前学習されたトランスフォーマーモデルです。

💻 使用例

基本的な使用法

このモデルは、マスク言語モデリングのパイプラインで直接使用できます。

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='flax-community/roberta-hindi')
>>> unmasker("हम आपके सुखद <mask> की कामना करते हैं")
[{'score': 0.3310680091381073,
  'sequence': 'हम आपके सुखद सफर की कामना करते हैं',
  'token': 1349,
  'token_str': ' सफर'},
 {'score': 0.15317578613758087,
  'sequence': 'हम आपके सुखद पल की कामना करते हैं',
  'token': 848,
  'token_str': ' पल'},
 {'score': 0.07826550304889679,
  'sequence': 'हम आपके सुखद समय की कामना करते हैं',
  'token': 453,
  'token_str': ' समय'},
 {'score': 0.06304813921451569,
  'sequence': 'हम आपके सुखद पहल की कामना करते हैं',
  'token': 404,
  'token_str': ' पहल'},
 {'score': 0.058322224766016006,
  'sequence': 'हम आपके सुखद अवसर की कामना करते हैं',
  'token': 857,
  'token_str': ' अवसर'}]

📦 訓練データ

RoBERTa Hindiモデルは、以下のデータセットの統合データで事前学習されました。

OSCAR は、goclassyアーキテクチャを使用してCommon Crawlコーパスを言語分類およびフィルタリングして得られた巨大な多言語コーパスです。
mC4 は、Common Crawlのウェブクロールコーパスの多言語でクリーンなバージョンです。
IndicGLUE は、自然言語理解のベンチマークです。
Samanantar は、インド諸言語の並列コーパスコレクションです。
Hindi Text Short and Large Summarization Corpus は、ヒンディー語のニュースウェブサイトから収集された約18万件の記事とその見出しおよび要約のコレクションです。
Hindi Text Short Summarization Corpus は、ヒンディー語のニュースウェブサイトから収集された約33万件の記事とその見出しのコレクションです。
Old Newspapers Hindi は、HC Corporaの新聞のクリーンなサブセットです。

🔧 訓練手順

前処理

テキストは、Byte - Pair Encoding (BPE) のバイトバージョンを使用してトークン化され、語彙サイズは50265です。モデルの入力は、ドキュメントをまたがる可能性のある512個の連続したトークンの断片を取ります。新しいドキュメントの始まりは <s> で、終わりは </s> でマークされます。

mC4 と oscar データセットからすべての非ヒンディー語（非デーヴァナーガリ文字）を削除することで、データセットのクリーンアップを行いました。
IndicGlue ベンチマークのWikiNERの評価セットについて、手動ラベリングにより実際のラベルが正しくないものをフィルタリングし、下流の評価データセットを修正しました。

各文のマスキング手順の詳細は以下の通りです。

トークンの15％がマスクされます。
80％のケースで、マスクされたトークンは <mask> で置き換えられます。
10％のケースで、マスクされたトークンは置き換えるトークンとは異なるランダムなトークンで置き換えられます。
残りの10％のケースでは、マスクされたトークンはそのまま残されます。 BERTとは異なり、マスキングは事前学習中に動的に行われます（例えば、各エポックで変化し、固定されていません）。

事前学習

モデルは、Google Cloud Engine TPUv3 - 8マシン（335GBのRAM、1000GBのハードドライブ、96個のCPUコア）で訓練されました。mC4、oscar および上記の他のデータセットの統合データセットをランダムにシャッフルしてモデルを訓練しました。訓練ログは wandb にあります。

📊 評価結果

RoBERTa Hindiは、様々な下流タスクで評価されています。結果を以下にまとめます。

タスク	タスクタイプ	IndicBERT	HindiBERTa	Indic Transformers Hindi BERT	RoBERTa Hindi Guj San	RoBERTa Hindi
BBCニュース分類	ジャンル分類	76.44	66.86	77.6	64.9	73.67
WikiNER	トークン分類	-	90.68	95.09	89.61	92.76
IITP製品レビュー	センチメント分析	78.01	73.23	78.39	66.16	75.53
IITP映画レビュー	センチメント分析	60.97	52.26	70.65	49.35	61.29