🚀 RoBERTa希臘基礎模型
本項目是一個基於希臘語預訓練的模型,採用掩碼語言建模(Masked Language Modeling,MLM)目標,藉助Hugging Face的Transformers庫進行訓練。該模型不區分大小寫,並且保留了所有希臘語變音符號。
🚀 快速開始
你可以直接使用此模型進行掩碼語言建模:
from transformers import pipeline
pipe = pipeline('fill-mask', model='cvcio/roberta-el-news')
pipe(
'Η κυβέρνηση μουδιασμένη από τη <mask> της έκθεσης Τσιόδρα-Λύτρα, '
'επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.'
)
[
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη δημοσιοποίηση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.5881184339523315, 'token': 20235, 'token_str': ' δημοσιοποίηση'
},
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη δημοσίευση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.05952141433954239, 'token': 9696, 'token_str': ' δημοσίευση'
},
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη διαχείριση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.029887061566114426, 'token': 4315, 'token_str': ' διαχείριση'
},
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη διαρροή της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.022848669439554214, 'token': 24940, 'token_str': ' διαρροή'
},
{
'sequence': 'Η κυβέρνηση μουδιασμένη από τη ματαίωση της έκθεσης Τσιόδρα-Λύτρα, επιχειρεί χωρίς να απαντά ουσιαστικά να ρίξει ευθύνες στον ΣΥΡΙΖΑ, που κυβερνούσε πριν... 2 χρόνια.',
'score': 0.01729060709476471, 'token': 46913, 'token_str': ' ματαίωση'
}
]
📦 安裝指南
文檔未提及安裝相關內容,故跳過此章節。
✨ 主要特性
- 基於希臘語進行預訓練,採用掩碼語言建模目標。
- 不區分大小寫,保留所有希臘語變音符號。
📚 詳細文檔
訓練數據
該模型在約800萬篇獨特的新聞文章(約1.6億個句子,33GB文本)上進行預訓練,這些文章使用MediaWatch收集,時間跨度從2016年10月到2021年12月。
預處理
文本使用字節版本的字節對編碼(Byte-Pair Encoding,BPE)進行分詞,詞彙表大小為50,265。在預處理過程中,僅將HTML文本轉換為相應的Unicode字符(例如,&
=> &
)。
預訓練
模型使用NVIDIA A10 GPU進行3個epoch(約760K步,182小時)的預訓練,批大小為14(x2梯度累積步驟 = 28),序列長度為512個token。使用的優化器是Adam,學習率為5e-5,學習率採用線性衰減。
訓練結果
輪數 |
步數 |
訓練/訓練損失 |
訓練/損失 |
評估/損失 |
3 |
765,414 |
0.3960 |
1.2356 |
0.9028 |
評估結果
該模型在elNER數據集上進行命名實體識別(NER)任務的微調,並取得了以下結果:
任務 |
輪數 |
學習率 |
批大小 |
數據集 |
精確率 |
召回率 |
F1值 |
準確率 |
ner |
5 |
1e-5 |
16/16 |
elNER4 |
0.8954 |
0.9280 |
0.9114 |
0.9872 |
ner |
5 |
1e-4 |
16/16 |
elNER18 |
0.9069 |
0.9268 |
0.9168 |
0.9823 |
訓練超參數
訓練過程中使用的超參數如下:
- 學習率:5e-5
- 訓練批大小:14
- 評估批大小:8
- 隨機種子:42
- 梯度累積步驟:2
- 總訓練批大小:28
- 優化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型:線性
- 訓練輪數:3.0
框架版本
- Transformers 4.13.0
- Pytorch 1.9.0+cu111
- Datasets 1.16.1
- Tokenizers 0.10.3
🔧 技術細節
- 採用掩碼語言建模目標,通過預測被掩碼的token來學習語言表示。
- 使用字節對編碼進行分詞,能夠處理未登錄詞。
- 訓練過程中使用線性衰減的學習率,有助於模型收斂。
📄 許可證
該項目採用GPL-3.0許可證。
👨💻 作者
Dimitris Papaevagelou - @andefined
🏢 關於我們
公民信息辦公室是一家位於希臘雅典的非營利組織,專注於為公共利益創建技術和研究產品。