🚀 RobeCzechモデルカード
RobeCzechは、チェコ語データで学習された単言語のRoBERTa言語表現モデルです。Fill-Maskタスクや形態素解析、固有表現認識などの下流タスクに利用できます。
🚀 クイックスタート
モデルを使用するには、以下のコードを実行します。
クリックして展開
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("ufal/robeczech-base")
model = AutoModelForMaskedLM.from_pretrained("ufal/robeczech-base")
✨ 主な機能
- Fill-Maskタスク:マスクされたトークンを予測するタスクに使用できます。
- 下流タスク:形態素解析、品詞タグ付け、係り受け解析、固有表現認識、意味解析などの下流タスクに利用可能です。
📦 インストール
このモデルはHugging FaceのTransformersライブラリを通じて利用できます。以下のコマンドでライブラリをインストールします。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("ufal/robeczech-base")
model = AutoModelForMaskedLM.from_pretrained("ufal/robeczech-base")
text = "RobeCzechは [MASK] 言語表現モデルです。"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
📚 ドキュメント
バージョン履歴
- バージョン1.1:2024年1月にリリースされました。トークナイザーが変更され、モデルパラメータはほとんど同じですが、埋め込みが拡大され、プーラーが削除されました。
- バージョン1.0:2021年5月にリリースされた初期バージョンで、トークナイゼーションに問題がありました。
モデルの詳細
使用方法
- 直接利用:Fill-Maskタスクに使用できます。
- 下流利用:形態素解析、品詞タグ付け、係り受け解析、固有表現認識、意味解析などの下流タスクに利用可能です。
バイアス、リスク、制限事項
モデルが生成する予測には、保護されたクラス、アイデンティティ特性、敏感な社会的および職業グループにまたがる有害なステレオタイプが含まれる可能性があります。
推奨事項
ユーザーはモデルのリスク、バイアス、制限事項を認識する必要があります。さらなる推奨事項には、より多くの情報が必要です。
学習の詳細
学習データ
モデルは以下の公開テキストコーパスで学習されました。
- SYN v4:現代の書かれたチェコ語の大規模コーパス、4,188Mトークン
- Czes:チェコの新聞や雑誌記事のコレクション、432Mトークン
- web corpus.W2Cのチェコ語部分の少なくとも400トークンのドキュメント、16Mトークン
- チェコ語Wikipediaダンプ20201020から抽出された平文、123Mトークン
学習手順
- 前処理:テキストはbyte-level BPE (BBPE) トークナイザーでサブワードにトークナイズされ、語彙サイズは52,000に制限されます。
- 速度、サイズ、時間:学習バッチサイズは8,192で、各学習バッチは連続してサンプリングされた文から構成されます。Adamオプティマイザーを使用してマスク言語モデリングの目的関数を最小化します。
- 使用ソフトウェア:Fairseqの実装が学習に使用されました。
評価
テストデータ、要因、メトリクス
モデルは5つのNLPタスクで評価されました。
- 形態素解析と語幹化
- 係り受け解析
- 固有表現認識
- 意味解析
- 感情分析
結果
モデル |
Morphosynt PDT3.5 (POS) (LAS) |
Morphosynt UD2.3 (XPOS) (LAS) |
NER CNEC1.1 (nested) (flat) |
Semant. PTG (Avg) (F1) |
RobeCzech |
98.50 91.42 |
98.31 93.77 |
87.82 87.47 |
92.36 80.13 |
環境への影響
- ハードウェアタイプ:8 QUADRO P5000 GPU
- 使用時間:2190時間(約3ヶ月)
引用
@InProceedings{10.1007/978-3-030-83527-9_17,
author={Straka, Milan and N{\'a}plava, Jakub and Strakov{\'a}, Jana and Samuel, David},
editor={Ek{\v{s}}tein, Kamil and P{\'a}rtl, Franti{\v{s}}ek and Konop{\'i}k, Miloslav},
title={{RobeCzech: Czech RoBERTa, a Monolingual Contextualized Language Representation Model}},
booktitle="Text, Speech, and Dialogue",
year="2021",
publisher="Springer International Publishing",
address="Cham",
pages="197--209",
isbn="978-3-030-83527-9"
}
📄 ライセンス
このモデルはcc-by-nc-sa-4.0ライセンスの下で提供されています。