🚀 スペイン国立図書館(BNE)のデータで学習されたLongformerベースモデル
このモデルは、スペイン語用のマスク言語モデルで、大きなコンテキストを入力として処理できます。Longformerのアーキテクチャを用いており、スペイン国立図書館の長い文書で事前学習されています。
🚀 クイックスタート
このモデルは、マスク言語モデリングに使用でき、Fill Maskタスクを実行できます。以下のセクションで使用方法を説明します。
✨ 主な機能
- スペイン語のマスク言語モデリングに最適化されています。
- 大きなコンテキストを入力として処理でき、追加の集約戦略を必要としません。
- 質問応答、テキスト分類、固有表現認識などの下流タスクでの微調整に適しています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer, FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model = AutoModelForMaskedLM.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model.eval()
pipeline = FillMaskPipeline(model, tokenizer_hf)
text = f"Hay base legal dentro del marco <mask> actual."
res_hf = pipeline(text)
pprint([r['token_str'] for r in res_hf])
📚 ドキュメント
モデルの説明
longformer-base-4096-bne-es は、スペイン語用の roberta-base-bne マスク言語モデルの Longformer バージョンです。これらのモデルを使用することで、追加の集約戦略を必要とせずに、より大きなコンテキストを入力として処理できます。このモデルは roberta-base-bne のチェックポイントから始まり、スペイン国立図書館の長い文書に対してMLMで事前学習されました。
Longformerモデルは、スライディングウィンドウ(ローカル)アテンションとグローバルアテンションを組み合わせて使用します。グローバルアテンションは、タスクに基づいてユーザーが設定でき、モデルがタスク固有の表現を学習できるようにします。グローバルアテンションの設定方法の詳細については、元の 論文 を参照してください。
コーパス、事前学習、評価の詳細については、公式 リポジトリ を確認してください。
想定される用途と制限
longformer-base-4096-bne-es モデルは、Fill Maskタスクを実行するためのマスク言語モデリングにのみすぐに使用できます(推論APIを試すか、次のセクションを読んでください)。
ただし、質問応答、テキスト分類、固有表現認識などの非生成的な下流タスクでの微調整を目的としています。
制限とバイアス
提出時点では、モデルに埋め込まれたバイアスと毒性を推定するための対策は取られていません。ただし、コーパスが複数のウェブソースからクローリング技術を使用して収集されているため、モデルにバイアスがある可能性があることを十分に認識しています。将来的にこれらの分野で研究を行う予定であり、完了した場合、このモデルカードは更新されます。
学習
学習コーパスと前処理
スペイン国立図書館 (Biblioteca Nacional de España) は、毎年すべての .es ドメインをクロールします。学習コーパスは、2009年から2019年にかけて実施されたこれらのクロールからの59TBのWARCファイルで構成されています。
高品質な学習コーパスを得るために、コーパスは一連の操作で前処理されています。これには、文分割、言語検出、不適切な文のフィルタリング、繰り返し内容の重複排除などが含まれます。処理の間、ドキュメントの境界は保持されます。これにより、2TBのクリーンなスペイン語コーパスが得られました。さらに、コーパス間でグローバルな重複排除が適用され、570GBのテキストが残りました。
コーパスのいくつかの統計情報は次の通りです。
コーパス |
ドキュメント数 |
トークン数 |
サイズ (GB) |
BNE |
201,080,084 |
135,733,450,668 |
570GB |
このLongformerには、4096トークン未満のドキュメントを含む7.2GBの小さなランダムパーティションを学習分割として使用しました。
トークン化と事前学習
学習コーパスは、元の RoBERTA モデルで使用されているByte-Pair Encoding (BPE) のバイトバージョンを使用してトークン化されており、語彙サイズは50,262トークンです。RoBERTa-base-bneの事前学習は、RoBERTaベースで採用されているアプローチに従ったマスク言語モデルの学習で構成されています。学習は、それぞれ32GB VRAMの2つのAMD MI50 GPUを備えた8つのコンピューティングノードで合計40時間続きました。
評価
下流タスクで微調整された場合、このモデルは次のようなパフォーマンスを達成しました。
データセット |
メトリック |
Longformer-base |
MLDoc |
F1 |
0.9608 |
CoNLL-NERC |
F1 |
0.8757 |
CAPITEL-NERC |
F1 |
0.8985 |
PAWS-X |
F1 |
0.8878 |
UD-POS |
F1 |
0.9903 |
CAPITEL-POS |
F1 |
0.9853 |
SQAC |
F1 |
0.8026 |
STS |
結合 |
0.8338 |
XNLI |
精度 |
0.8210 |
追加情報
著者
バルセロナスーパーコンピューティングセンターのテキストマイニングユニット (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細については、plantl-gob-es@bsc.es にメールを送信してください。
著作権
スペイン国のデジタル化と人工知能担当国務省 (SEDIA) による著作権 (2022)
ライセンス情報
Apache License, Version 2.0
資金提供
この作業は、Plan-TLの枠組み内でスペイン国のデジタル化と人工知能担当国務省 (SEDIA) によって資金提供されました。
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれている可能性があります。
第三者がこれらのモデルのいずれかを使用してシステムやサービスを展開または提供する場合、またはモデルのユーザーになる場合、それらの使用から生じるリスクを軽減する責任があり、いずれの場合も、人工知能の使用に関する規制を含む適用される規制を遵守する必要があります。
いかなる場合も、モデルの所有者 (SEDIA – デジタル化と人工知能担当国務省) または作成者 (BSC – バルセロナスーパーコンピューティングセンター) は、第三者によるこれらのモデルの使用から生じる結果について責任を負いません。