🚀 RoBERTaギリシャ語ベースモデル
このモデルは、Hugging FaceのTransformersライブラリを使用して、マスク付き言語モデリング(MLM)を目的としてギリシャ語で事前学習されたモデルです。このモデルは大文字と小文字を区別せず、すべてのギリシャ語の発音記号が保持されています。
🚀 クイックスタート
このモデルは、マスク付き言語モデリングのパイプラインで直接使用することができます。
💻 使用例
基本的な使用法
from transformers import pipeline
pipe = pipeline('fill-mask', model='cvcio/roberta-el-news')
pipe(
'Η κυβέρνηση μουδιασμένη από τη <mask> της έκθεσης Τσιόδρα-Λύτρα, '
'επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.'
)
[
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη δημοσιοποίηση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.5881184339523315, 'token': 20235, 'token_str': ' δημοσιοποίηση'
},
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη δημοσίευση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.05952141433954239, 'token': 9696, 'token_str': ' δημοσίευση'
},
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη διαχείριση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.029887061566114426, 'token': 4315, 'token_str': ' διαχείριση'
},
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη διαρροή της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.022848669439554214, 'token': 24940, 'token_str': ' διαρροή'
},
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη ματαίωση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.01729060709476471, 'token': 46913, 'token_str': ' ματαίωση'
}
]
📚 ドキュメント
📦 訓練データ
このモデルは、2016年10月から2021年12月までにMediaWatchを使用して収集された約800万件のユニークなニュース記事(約1億6000万文、33GBのテキスト)で事前学習されています。
🔧 前処理
テキストは、Byte-Pair Encoding(BPE)のバイトバージョンを使用してトークン化され、語彙サイズは50,265です。前処理中に、HTMLテキストを対応するUnicode文字にエスケープ解除するだけです(例:&
=> &
)。
🔧 事前学習
このモデルは、NVIDIA A10 GPUを使用して3エポック(約760Kステップ、182時間)、バッチサイズ14(x2勾配累積ステップ = 28)、シーケンス長512トークンで事前学習されました。使用されるオプティマイザはAdamで、学習率は5e-5、学習率は線形減衰します。
訓練結果
エポック |
ステップ |
訓練/訓練損失 |
訓練/損失 |
評価/損失 |
3 |
765,414 |
0.3960 |
1.2356 |
0.9028 |
評価結果
このモデルは、elNERデータセットを使用してNERタスクで微調整され、以下の結果を達成しました。
タスク |
エポック |
学習率 |
バッチ |
データセット |
適合率 |
再現率 |
F1スコア |
正解率 |
ner |
5 |
1e-5 |
16/16 |
elNER4 |
0.8954 |
0.9280 |
0.9114 |
0.9872 |
ner |
5 |
1e-4 |
16/16 |
elNER18 |
0.9069 |
0.9268 |
0.9168 |
0.9823 |
訓練ハイパーパラメータ
訓練中に使用されたハイパーパラメータは以下の通りです。
- 学習率: 5e-5
- 訓練バッチサイズ: 14
- 評価バッチサイズ: 8
- シード: 42
- 勾配累積ステップ: 2
- 総訓練バッチサイズ: 28
- オプティマイザ: Adam(ベータ=(0.9,0.999)、イプシロン=1e-08)
- 学習率スケジューラタイプ: 線形
- エポック数: 3.0
フレームワークバージョン
- Transformers 4.13.0
- Pytorch 1.9.0+cu111
- Datasets 1.16.1
- Tokenizers 0.10.3
📄 ライセンス
このモデルはGPL-3.0ライセンスの下で提供されています。
👥 作成者
Dimitris Papaevagelou - @andefined
👥 私たちについて
Civic Information Officeは、ギリシャのアテネを拠点とする非営利組織で、公共の利益のための技術と研究製品の開発に焦点を当てています。