robeCzech - baseオープンソース言語モデル - チェコ語のスマートテキスト処理と分析に無料で利用可能

ホーム

Robeczech Base

ufalによって開発

RobeCzechはチェコ語データを基に訓練された単言語RoBERTa言語表現モデルで、チェコのチャールズ大学の形式・応用言語学部によって開発されました。

大規模言語モデル

Transformers

その他#チェコ語RoBERTa #穴埋め予測 #形態構文解析

ダウンロード数 2,911

リリース時間 : 3/2/2022

モデル概要

このモデルは主に穴埋め予測タスクに使用され、チェコ語テキスト処理をサポートし、様々な自然言語処理タスクに適しています。

モデル特徴

改良された形態素解析器

バージョン1.1では形態素解析器に重要な改良が加えられ、番号の欠落を埋め、すべてのトークンに一意のIDを割り当て、モデルの安定性と互換性を向上させました。

チェコ語最適化

チェコ語データを対象に特別に訓練され、言語表現能力が最適化され、チェコ語関連の自然言語処理タスクに適しています。

文書構造の保持

訓練時に文書の完全な構造を保持することで、モデルが文脈情報を理解するのに役立ちます。

モデル能力

穴埋め予測

形態素ラベリング

見出し語化

依存構文解析

固有表現抽出

意味解析

使用事例

自然言語処理

形態解析と見出し語化

凍結された単語埋め込みを使用してチェコ語の形態解析と見出し語化を行います。

タグ付けの正解率は98.50（品詞タグ付け）と91.42（細粒度品詞）

固有表現抽出

チェコ語テキスト中の固有表現を識別します。

F1値は87.82（ネスト）と87.47（フラット）

意味解析

チェコ語テキストに対して意味解析を行います。

平均F1値は92.36

🚀 RobeCzechモデルカード

RobeCzechは、チェコ語データで学習された単言語のRoBERTa言語表現モデルです。Fill-Maskタスクや形態素解析、固有表現認識などの下流タスクに利用できます。

🚀 クイックスタート

モデルを使用するには、以下のコードを実行します。

クリックして展開

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("ufal/robeczech-base")

model = AutoModelForMaskedLM.from_pretrained("ufal/robeczech-base")

✨ 主な機能

Fill-Maskタスク：マスクされたトークンを予測するタスクに使用できます。
下流タスク：形態素解析、品詞タグ付け、係り受け解析、固有表現認識、意味解析などの下流タスクに利用可能です。

📦 インストール

このモデルはHugging FaceのTransformersライブラリを通じて利用できます。以下のコマンドでライブラリをインストールします。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("ufal/robeczech-base")
model = AutoModelForMaskedLM.from_pretrained("ufal/robeczech-base")

text = "RobeCzechは [MASK] 言語表現モデルです。"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

📚 ドキュメント

バージョン履歴

バージョン1.1：2024年1月にリリースされました。トークナイザーが変更され、モデルパラメータはほとんど同じですが、埋め込みが拡大され、プーラーが削除されました。
バージョン1.0：2021年5月にリリースされた初期バージョンで、トークナイゼーションに問題がありました。

モデルの詳細

開発者：Institute of Formal and Applied Linguistics, Charles University, Prague (UFAL)
共有元：Hugging Faceと LINDAT/CLARIAH-CZ
モデルタイプ：Fill-Mask
言語：cs
ライセンス：cc-by-nc-sa-4.0
モデルアーキテクチャ：RoBERTa
詳細情報：RobeCzech: Czech RoBERTa, a Monolingual Contextualized Language Representation Model

使用方法

直接利用：Fill-Maskタスクに使用できます。
下流利用：形態素解析、品詞タグ付け、係り受け解析、固有表現認識、意味解析などの下流タスクに利用可能です。

バイアス、リスク、制限事項

モデルが生成する予測には、保護されたクラス、アイデンティティ特性、敏感な社会的および職業グループにまたがる有害なステレオタイプが含まれる可能性があります。

推奨事項

ユーザーはモデルのリスク、バイアス、制限事項を認識する必要があります。さらなる推奨事項には、より多くの情報が必要です。

学習の詳細

学習データ

モデルは以下の公開テキストコーパスで学習されました。

SYN v4：現代の書かれたチェコ語の大規模コーパス、4,188Mトークン
Czes：チェコの新聞や雑誌記事のコレクション、432Mトークン
web corpus.W2Cのチェコ語部分の少なくとも400トークンのドキュメント、16Mトークン
チェコ語Wikipediaダンプ20201020から抽出された平文、123Mトークン

学習手順

前処理：テキストはbyte-level BPE (BBPE) トークナイザーでサブワードにトークナイズされ、語彙サイズは52,000に制限されます。
速度、サイズ、時間：学習バッチサイズは8,192で、各学習バッチは連続してサンプリングされた文から構成されます。Adamオプティマイザーを使用してマスク言語モデリングの目的関数を最小化します。
使用ソフトウェア：Fairseqの実装が学習に使用されました。

評価

テストデータ、要因、メトリクス

モデルは5つのNLPタスクで評価されました。

形態素解析と語幹化
係り受け解析
固有表現認識
意味解析
感情分析

結果

モデル	Morphosynt PDT3.5 (POS) (LAS)	Morphosynt UD2.3 (XPOS) (LAS)	NER CNEC1.1 (nested) (flat)	Semant. PTG (Avg) (F1)
RobeCzech	98.50 91.42	98.31 93.77	87.82 87.47	92.36 80.13

環境への影響

ハードウェアタイプ：8 QUADRO P5000 GPU
使用時間：2190時間（約3ヶ月）

引用

@InProceedings{10.1007/978-3-030-83527-9_17,
  author={Straka, Milan and N{\'a}plava, Jakub and Strakov{\'a}, Jana and Samuel, David},
  editor={Ek{\v{s}}tein, Kamil and P{\'a}rtl, Franti{\v{s}}ek and Konop{\'i}k, Miloslav},
  title={{RobeCzech: Czech RoBERTa, a Monolingual Contextualized Language Representation Model}},
  booktitle="Text, Speech, and Dialogue",
  year="2021",
  publisher="Springer International Publishing",
  address="Cham",
  pages="197--209",
  isbn="978-3-030-83527-9"
}